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本 书 介绍 了 信息 检索 (IR) 中 的 关键 问题 ， 以 及 这 些 问题 如 何 影响 搜索 引擎 的 设计 与 实现 ， 并 
且 用 数学 模型 强化 了 重要 的 概念 。 对 于 网 络 搜索 引擎 这 一 重要 的 话题 ， 书 中 主要 涵盖 了 在 网 络 上 广 
泛 使 用 的 搜索 技术 。 

本 书 适 用 于 高 等 院 校 计算 机 科学 或 计算 机 工程 专业 的 本 科 生 、 研 究 生 ， 对 于 专业 人 士 而 言 ， 本 
书 也 不 失 为 一 本 理想 的 入 门 教 材 。 


作 马萨诸塞 大 学 阿 默 斯 特 分 校 计 算 机 科学 特聘 教授 、ACM T 
者 W. Bruce Croft 会 士 。 他 创建 了 智能 信息 检索 研究 中 心 ， 发 表 了 200 余 篇 [3 


i 论文 ， 多 次 获奖 ， 其 中 包括 2003 年 由 ACM SIGIR 颁 发 的 Gerard Salton 奖 。 
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马萨诸塞 大 学 阿 默 斯 特 分 校 博 士 ， 是 位 于 加 州 Santa Clara 
Donald Metzler 的 雅虎 研究 中 心 搜索 与 计算 机 广告 组 的 研究 科学 家 。 








马萨诸塞 大 学 阿 默 斯 特 分 校 博士 。 他 开发 了 Galago 
Trevor Strohman 搜索 引擎 ， 也 是 Indri 搜 索引 擎 的 主要 开发 者 。 F. 
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本 书 介绍 了 信息 检索 中 的 关键 问题 ， 以 及 这 些 问 题 如 何 影响 搜索 引擎 的 设计 与 实现 ， 很 
好 地 兼顾 了 信息 检索 理论 以 及 搜索 引擎 的 设计 、 实 现 和 使 用 中 的 知识 面 广度 与 深度 问题 ， 重 
点 关注 于 那些 对 于 实现 搜索 引擎 组 件 以 及 组 件 背 后 的 信息 检索 模型 最 重要 的 部 分 ， 以 及 网 络 
上 使 用 的 搜索 技术 。 本 书 适合 作为 高 等 院 校 计算 机 科学 或 计算 机 工程 专业 本 科 生 或 研究 生 的 
教材 。 
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出 版 者 的 话 ， 


文艺 复兴 以 降 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 自然 科学 的 
各 个 领域 取得 了 垄断 性 的 优势 ， 也 正 是 这 样 的 传统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 
家 蕴 出 、 独 领 风 骚 。 在 商业 化 的 进程 中 ,美国 的 产业 界 与 教育 界 越 来 越 紧 密 地 结合 ， 计 算 机 
学 科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科 学 著作 ， 不 仅 莒 
划 了 研究 的 范畴 ， 还 揭示 了 学 术 的 源 变 ， 既 遵循 学 术 规范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 
因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信 息 化 大 潮 的 推动 下 ， 我 国 的 计算 机 产业 发 展 迅 猛 ， 对 专业 人 才 的 需求 日 
益 迫 切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ， 而 专业 教材 的 建设 在 教育 战略 
上 显得 举足轻重 。 在 我 国信 息 技术 发 展 时 间 较 短 的 现状 下 ， 美 国 等 发 达 国 家 在 其 计算 机 科学 
发 展 的 几 十 年 间 积 淀 和 发 展 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国外 优秀 计 
算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 设 真正 
的 世界 一 流 大 学 的 必由之路 。 

机 械 工业 出 版 社 华章 公司 较 早 意识 到 “出 版 要 为 教育 服务 "。 自 1998 年 开始 ， 我 们 就 将 工 
作 重 点 放 在 了 六 选 、 移 译 国外 优秀 教材 上 。 经 过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson，McGraw- 
Hill, Elsevier, MIT, John Wiley & Sons，Cengage 等 世界 著名 出 版 公司 建立 了 良好 的 合作 关 
系 ， 从 他 们 现 有 的 数 百 种 教材 中 甄选 出 Andrew S. Tanenbaum, Bjarne Stroustrup, Brain W. 
Kernighan, Dennis Ritchie, Jim Gray, Afred V. Aho, John E. Hopcroft, Jeffrey D. Ullman, 
Abraham Silberschatz, William Stallings, Donald E. Knuth, John L. Hennessy, Larry L. 
Peterson 等 大 师 名 家 的 一 批 经 典 作 品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 学 习 、 研 究 
及 珍藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 从 书 的 品位 和 格调 。 

“计算 机 科学 从 书 ” 的 出 版 工作 得 到 了 国内 外 学 者 的 映 力 襄 助 ， 国 内 的 专家 不 仅 提 供 了 中 
肯 的 选 题 指导 ， 还 不 辞 劳 苦 地 担任 了 翻译 和 审 校 的 工作 ， 而 原 书 的 作者 也 相当 关注 其 作品 在 
中 国 的 传播 ， 有 的 还 专程 为 其 书 的 中 译本 作 序 。 迄 今 ,“ 计 算 机 科学 丛书 ”已 经 出 版 了 近 两 百 
个 品种 ， 这 些 书籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采用 为 正式 教材 和 参考 书籍 。 
其 影印 版 “经 典 原 版 书库 ”作为 姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 的 
图 书 有 了 质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完 善 和 教材 改革 的 逐渐 深 
化 ， 教 育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 人 一 个 新 的 阶段 ， 我 们 的 目标 是 尽善尽美 ， 
而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 章 公司 欢迎 老师 和 读者 对 我 们 的 工 
作 提 出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 ， i 
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记得 1996 年 ， 我 在 北京 图 书馆 的 电子 阅览 室 里 付费 上 机 检索 ， 查 到 了 一 些 我 感 兴 趣 的 英 
文 文献 的 题 录 。 当 时 感觉 很 兴奋 ， 用 电脑 检索 比 手工 卡片 检索 方便 了 许多 ， 但 实在 无 法 想象 ， 
短 短 几 年 后 信息 检索 技术 就 冲破 了 科技 情报 领域 的 局 限 ， 成 为 普通 民众 每 天 都 要 使 用 的 信息 
搜索 工具 。 是 互联 网 这 项 人 类 历史 上 伟大 的 发 明 ， 是 网 上 浩如烟海 的 信息 给 人 类 带 来 的 挑战 ， 
推动 了 信息 检索 技术 向 海量 、 高 效 、 多 媒体 、 个 性 化 等 方向 突飞猛进 地 发 展 。 

在 21 世 纪 第 二 个 “十 年 ”到 来 的 今天 ， 越 来 越 多 的 学 者 、 研 发 人 人员、 研究 生 和 大 学 生 们 
投入 到 搜索 引擎 的 研究 与 实践 中 来 ， 他 们 希望 掌握 搜索 引擎 缘 后 的 理论 和 技术 ， 希 望 了 解 在 
搜索 引擎 设计 和 开发 中 的 原则 和 经 验 ， 从 而 为 搜索 引擎 在 各 个 行业 的 应 用 以 及 更 具 颠 覆 性 的 
下 一 代 搜 索引 警 的 研发 创造 条 件 。 

本 书 恰好 可 以 满足 这 些 读 者 的 迫切 需求 。 本 书 英文 版 原作 者 W. Bruce Croft 于 1979 年 在 英 
国 剑桥 大 学 获得 计算 机 科学 博士 学 位 ， 同 年 加 入 University of Massachusetts (Amherst 分 校 ) 
计算 机 科学 系 ， 曾 任 系 主任 多 年 ， 目 前 担任 该 系 的 特聘 教授 。1992 年 ， 他 创建 了 智能 信息 检 
索 研 究 中 心 ， 其 研究 兴趣 覆盖 信息 检索 中 的 多 个 领域 ， 包 括 检索 模型 、Web 搜 索 、 查 询 处 理 、 
跨 语言 检索 和 搜索 架构 等 。 他 在 1997 年 被 选 为 ACM Fellow ，2000 年 获得 美国 信息 科学 与 技术 
学 会 的 研究 奖 ，2003 年 获得 ACM SIGIR (ACM 关 于 信息 检索 的 特殊 兴趣 组 ) 的 Gerard Salton 
奖 ，Salton 奖 是 信息 检索 领域 最 受 关注 的 奖励 。 

从 作者 的 简历 中 可 以 看 到 这 是 一 位 国际 信息 检索 领域 顶尖 的 学 者 ， 他 的 这 本 新 书 一 经 出 
版 ， 就 以 其 深入 流出 ， 理 论 与 实践 密切 结合 ， 覆 盖 了 诸多 最 新 的 搜索 引擎 技术 等 鲜明 特色 而 
获得 了 业内 的 普遍 好 评 。 机 械 工业 出 版 社 迅速 出 版 了 该 书 的 英文 版 ， 同 时 委托 我 研究 中 心 将 
其 译 为 中 文 ， 以 维 读 者 。 

在 本 书 的 翻译 过 程 中 ， 秦 兵 教授 付出 的 心血 最 多 ， 她 除了 要 翻译 自己 负责 的 部 分 以 外 ， 
还 要 负责 组 织 、 校 对 等 工作 ， 她 高 度 的 责任 心 是 本 书 得 以 顺利 出 版 的 关键 。 除 四 位 主要 译 者 
外 ， 李 正 华 、 伍 大 勇 、 郎 君 、 赵 妍 妍 、 宋 岗 等 多 位 高 年 级 博士 生 也 参与 了 部 分 章节 的 翻译 工 
作 。 本 书 也 得 到 了 译 者 们 的 恩师 李 生 教授 的 支持 ， 并 得 到 了 他 主持 的 国家 自然 科学 基金 重点 
项 目 “ 下 一 代 信 息 检索 研究 ”( 编 号 60736044) 的 资助 。 

译 者 水 平 有 限 ， 书 中 玻 漏 在 所 难免 ， 获 请 读者 批评 指正 。 


译 者 
2010 年 3 月 1 日 
于 哈尔滨 工业 大 学 
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本 书 综述 了 信息 检索 中 的 重要 问题 ， 并 介绍 了 这 些 问 题 如 何 对 搜索 引擎 的 设计 与 实现 产 
生 影 响 。 本 书 并 不 是 按照 相同 的 详细 程度 描述 每 个 主题 ， 相 反 ， 我 们 侧重 于 那些 对 于 实现 搜 
索引 擎 组 件 以 及 组 件 背后 的 信息 检索 模型 最 重要 的 部 分 。 网 络 搜索 引擎 显然 是 一 个 重要 的 话 
题 ， 我 们 主要 覆盖 了 在 网 络 上 使 用 的 搜索 技术 ， 但 搜索 引擎 在 其 他 场合 中 也 有 应 用 ， 这 就 是 
为 什么 我 们 重点 强调 各 种 搜索 引擎 背后 的 信息 检索 理论 与 概念 的 原因 。 

本 书 的 目标 读者 群 主要 是 计算 机 科学 或 计算 机 工程 的 本 科 生 ， 但 研究 生 也 会 发 现 本 书 是 
有 用 的 ， 此 外 ， 本 书 也 适合 多 数 情报 科学 专业 的 学 生 。 最 后 ， 无 论 读者 是 什么 背景 ， 通 过 阅 
读本 书 都 可 以 对 他 们 动手 开发 搜索 引擎 有 所 帮助 。 本 书 中 涉及 数学 知识 ， 但 并 不 深奥 。 书 中 
也 有 代码 和 程序 设计 的 练习 ， 但 对 于 那些 已 经 完成 了 基本 计算 机 科学 与 程序 设计 课程 的 人 来 
说 ， 完 全 可 以 掌握 。 

每 章 末 尾 的 练习 使 用 了 被 称 为 Galago 的 基于 Java 的 开源 搜索 引擎 。Galago 既 是 为 本 书 所 设 
计 的 ， 也 借鉴 了 Lemur 和 Indri 项 目的 经 验 。 换 名 话说 ， 这 是 一 个 功能 齐全 的 能 够 支持 真正 应 用 
的 搜索 引擎 。 许 多 编程 练习 都 是 针对 Galago 组 件 的 使 用 、 修 改 和 扩展 。 
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在 第 1 章 ， 我 们 对 信息 检索 及 它 与 搜索 引擎 的 关系 做 了 一 个 高 层次 的 回顾 。 在 第 2 章 ， 我 
们 描述 了 搜索 引擎 的 架构 ， 这 一 章 全 面 介绍 搜索 引擎 的 各 个 组 件 ， 但 没有 涉及 细节 问题 。 在 
第 3 章 ， 我 们 关注 于 把 取 、 文 档 信息 源 和 其 他 用 于 获取 被 检索 信息 的 技术 。 第 4 章 描述 了 文本 
的 统计 特征 ， 以 及 用 来 处 理 和 识别 重要 特征 的 技术 ， 并 为 建立 索引 做 准备 。 第 5 章 描述 了 怎样 
为 有 效 的 搜索 建立 索引 ， 以 及 怎样 利用 索引 处 理 查询 。 在 第 6 章 ， 我 们 描述 了 怎样 处 理 查询 ， 
并 把 它们 转换 为 更 好 的 形式 ， 以 表达 用 户 的 信息 需求 。 

第 7 章 介绍 排序 算法 及 以 这 些 算法 为 基础 的 检索 模型 。 这 一 章 也 概述 了 机 器 学 习 技术 以 及 
机 器 学 习 与 信息 检索 、 搜 索引 警 的 关系 。 第 8 章 描述 了 用 于 比较 和 调整 搜索 引擎 的 评价 指标 和 
性 能 指标 。 第 9 章 和 覆盖 了 分 类 、 过 滤 、 豪 类 和 垃圾 信息 处 理 等 重要 技术 。 社 会 化 搜索 一 词 用 于 
描述 一 种 搜索 引擎 的 应 用 ， 这 种 应 用 涉及 对 内 容 进 行 标注 或 者 回答 问题 的 社区 人 群 。 第 10 章 
描述 了 为 这 些 应 用 服务 的 搜索 技术 以 及 P2P 搜 索 。 最 后 ， 在 第 11 章 ， 我 们 介绍 了 一 些 高 级 搜索 
技术 ， 这 些 技术 能 够 从 文档 中 捕获 更 多 内 容 ， 而 不 只 是 简单 地 基于 词 进行 计算 ， 其 中 包括 使 
用 语言 学 特征 、 文 档 结 构 和 非 文本 媒体 的 内 容 ， 如 图 像 和 音乐 。 

信息 检索 理论 以 及 搜索 引 警 的 设计 、 实 现 、 评 价 和 使 用 覆盖 了 太 多 的 话题 ， 以 至 于 无 法 
在 一 本 书 中 做 全 部 深入 的 描述 。 我 们 试图 集中 于 最 重要 的 主题 ， 同 时 ， 对 于 这 些 充 满 挑 战 也 
非常 有 价值 的 课题 ， 我 们 也 兼顾 到 各 个 主题 的 方方面面 。 


补充 材料 


本 书 提供 了 一 定 范围 的 补充 材料 ， 这 些 材料 既 可 以 供 那 些 选修 这 门 课 的 学 生 使 用 ， 也 可 
以 供 讲授 这 门 课 的 教师 使 用 ， 其 中 包括 : 
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第 1 章 搜索 引擎 和 信息 检索 


“Helpmann 先 生 ， 我 很 高 兴 进 入 信息 检索 领域 。 
一 一 Sam Lowry, 《 妙 想 天 开 》 


1.1 什么 是 信息 检索 


摆 写 本 书 的 目标 是 帮助 人 们 理解 、 评 价 和 比较 搜索 引擎 (Search Engine )， 并 进行 改写 以 
适应 特殊 的 应 用 需要 。 对 大 多 数 人 来 说 ， 在 Web 上 搜索 信息 是 一 项 日 常 活动 。 目 前 ， 搜 索 和 
通信 是 计算 机 最 普遍 的 应 用 。 公 司 和 大 学 中 的 很 多 人 试图 改进 搜索 引擎 ， 让 人 们 以 更 简单 更 
快速 的 方式 找到 正确 的 信息 ， 这 一 点 也 不 奇怪 。 这 些 人 ， 无 论 他 们 自称 为 计算 机 科学 家 、 软 
件 工 程 师 、 信 息 科学 家 、 搜 索引 擎 优化 者 或 其 他 什么 称谓 ， 都 是 在 信息 检索 (Information 
` Retrieval, IR) 这 个 领域 工作 。 因 此 ， 在 进入 搜索 引擎 内 部 开始 具体 的 旅程 以 前 ， 我 们 要 先 介 
绍 一 下 背景 。 

Gerard Salton 是 信息 检索 领域 的 先驱 ， 也 是 20 世 纪 60 年 代 到 90 年 代 信息 检索 领域 的 领袖 
人 物 之 一 ， 他 在 其 经 典 教科 书 (Salton, 1968) 中 ， 给 信息 检索 做 出 了 以 下 定义 。 


信息 检索 是 关于 信息 的 结构 、 分 析 、 组 织 、 存 储 、 搜 索 和 检索 的 领域 。 


尽管 在 过 去 的 40 年 中 ， 对 搜索 的 理解 以 及 搜索 技术 都 有 了 巨大 的 进步 ， 但 上 述 定义 仍然 
非常 合适 、 非 常 准 确 。“ 信 息 检 索 ” 一 词 含义 非常 宽泛 ， 涵 盖 了 很 宽 范围 的 信息 类 型 和 各 种 与 
搜索 相关 的 应 用 。 

从 20 世 纪 50 年 代 开 始 ， 该 领域 的 主要 焦点 一 直 是 文本 (text) 和 文本 形式 的 文档 (text 
document)。 网 页 、 电 子 邮 件 、 学 术 论 文 、 图 书 和 新 闻 报道 只 是 文档 类 型 中 的 一 部 分 。 所 有 这 
些 文档 都 有 一 定 的 结构 ， 例 如 与 科技 期 刊 论文 的 内 容 相 关联 的 标题 、 作 者 、 日 期 和 摘要 信息 
等 。 当 用 于 数据 库 记 录 时 ， 这 些 结构 由 属性 或 域 组 成 。 文 档 和 典型 的 数据 库 记 录 (例如 银行 
账户 记录 或 航班 预定 记录 ) 最 重要 的 区 别 在 于 ， 文 档 中 的 大 部 分 信息 以 文本 形式 存放 ， 文 本 
是 没有 结构 的 。 

为 了 解释 这 一 区 别 ， 考 虑 账户 记录 中 包含 的 两 个 典型 属性 : 账号 和 当前 余额 。 无 论 在 格 
式 〈 例 如 : 用 6 位 整数 定义 账号 ， 用 带 有 2 位 小 数 的 实数 描述 余额 ) 上， 还 是 在 意义 上 ， 这 两 
个 属性 都 被 非常 精确 地 定义 。 要 比较 这 些 属性 的 值 是 非常 容易 的 ， 因 此 可 以 直接 实现 某 个 算 
法 ， 识 别 出 满足 某 个 查询 条 件 的 记录 ， 例 如 :“ 找 出 账号 为 321456 的 账户 ”， 或 者 “ 找 出 余额 
大 于 5 万 美金 的 账户 ”。 

现在 考虑 一 个 关于 两 个 银行 合并 的 新 闻 报 道 ， 该 报道 有 一 些 属性 ， 比 如 标题 和 新 闻 来 源 ， 
但 重要 的 内 容 是 报道 本 身 。 在 数据 库 系 统 中 ， 这 一 关键 信息 一 般 会 被 存储 在 一 个 没有 内 部 结 
构 的 单独 的 大 属性 中 。 大 多 数 提交 给 网 络 搜索 引擎 的 查询 ， 如 果 跟 这 篇 报道 有 关 ， 则 具有 
“银行 合并 ”或 “银行 接管 ”这 样 的 字眼 。 为 了 做 这 个 搜索 ， 我 们 必须 设计 出 能 够 比较 查询 文 
字 和 报道 文字 的 算法 ， 并 决定 报道 中 是 否 包 含 被 搜索 的 信息 。 定 义 一 个 词 、 句 子 、 段 落 或 者 
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整个 新 闻 报道 的 意义 ， 比 定义 一 个 账号 要 难得 多 ， 因 此 文本 的 比较 并 不 容易 。 对 人 们 比较 文 
本 的 过 程 进行 理解 和 建 模 ， 并 设计 计算 机 算法 以 便 精确 地 执行 这 种 比较 ， 是 信息 检索 的 核心 。 

逐 泊 地， 信息 检索 的 应 用 包含 了 带 有 结构 的 多 媒体 文档 、 有 意义 的 文本 内 容 和 其 他 媒体 。 
常见 的 信息 媒体 包括 图 片 、 视 频 、 音 频 (包括 音乐 和 语音 )。 在 某 些 应 用 中 ， 例 如 在 法 律 支持 
系统 中 ， 被 扫描 的 文档 图 片 也 是 重要 的 。 这 些 媒体 像 文本 一 样 ， 其 内 容 都 很 难 描述 和 比较 。 
当前 搜索 非 文本 文档 的 技术 依赖 于 对 这 些 内 容 的 文本 描述 ， 而 不 是 这 些 媒体 自身 的 内 容 ， 但 
对 媒体 内 容 的 直接 比较 技术 正在 不 断 进步 ， 例 如 图 片 的 比较 。 

除了 媒体 多 种 多 样 以 外 ， 信 息 检索 还 包括 一 系列 任务 和 应 用 。 通 常 的 搜索 情景 是 HA 
向 搜索 引擎 输入 一 个 查询 ， 并 从 一 个 经 过 排序 的 文档 列表 中 得 到 答案 。 尽 管 在 万 维 网 上 进行 
的 搜索 是 信息 检索 最 常见 的 应 用 ， 不 过 搜索 也 在 企业 、 政 府 和 其 他 许多 应 用 领域 中 扮演 着 重 
EHAE., EHR (vertical search) 是 网 络 搜索 的 特殊 形式 ， 搜 索 被 限制 在 特殊 的 主题 上 。 
企业 搜索 (enterprise search) 是 在 散布 在 企业 内 部 网 中 的 大 量 计 算 机 文件 中 寻找 所 需 的 信息 。 
网 页 当然 是 分 布 式 信息 存储 的 一 部 分 ， 但 大 多 数 信息 将 在 邮件 、 报 告 、 发 言 稿 、 数 据 表 以 及 
企业 的 结构 化 数据 库 中 得 到 。 桌 面 搜索 (desktop search) 是 企业 搜索 的 个 人 版 ， 信 息 源 是 存 
储 在 一 台 个 人 电脑 中 的 文件 集合 ， 包 括 那些 被 浏览 过 的 邮件 和 网 页 。P2P 搜 索 (peer-to-peer 
search) 是 在 节点 机 或 计算 机 构成 的 网 络 中 搜寻 信息 ， 但 没有 任何 集中 式 的 控制 。 这 种 类 型 的 
搜索 是 从 音乐 文件 的 共享 工具 开始 的 ， 但 也 可 以 被 用 于 任何 有 共同 兴趣 的 社区 ， 甚 至 在 移动 
设备 中 共享 位 置信 息 。 人 们 采用 搜索 和 相关 的 信息 检索 技术 发 布 广告 ， 做 智能 分 析 、 科 学 发 
现 、 卫 生 保 健 、 客 服 支持 和 房地产 投资 等 等 。 任 何 包含 文本 集合 的 应 用 或 其 他 非 结 构 化 的 信 
息 ， 都 需要 进行 组 织 和 搜索 。 

基于 用 户 查 询 的 搜索 (有 时 称 为 特殊 搜索 (ad hoc search) ， 因 为 查询 的 范围 巨大 而 且 事 
先 没有 约定 ) 并 不 是 信息 检索 中 研究 的 唯一 的 文本 处 理 任务 ， 其 他 任务 包括 过 滤 (filtering ), 
分 类 (classification) 和 问答 (question answering)。 过 滤 也 称 为 跟踪 ， 根据 一 个 人 的 兴趣 发 
现 符合 其 兴趣 的 报道 ， 并 用 邮件 和 其 他 机 制 报 警 。 分 类 程序 基于 一 套 预先 定义 的 标签 或 类 别 
(比如 Yahoo 目 录 体 系 ) 给 文档 打上 标记 。 问 答 系统 与 搜索 很 相似 ， 但 它 的 目标 是 处 理 更 特殊 
的 问题 ， 例 如 “珠穆朗玛 峰 的 高 度 是 多 少 ? “。 问 答 系 统 的 目标 是 从 文本 中 发 现 明 确 的 答案 ， 
而 不 是 一 个 文档 列表 。 表 1-1 对 信息 检索 领域 的 一 些 特征 和 维度 进行 了 总 结 。 


表 1-1 信息 检索 的 维度 








内 容 实例 应 用 实例 任务 实例 
文本 网 络 搜索 特殊 搜索 
图 像 垂直 搜索 过 让 
视频 企业 搜索 分 类 
扫描 文档 桌面 搜索 问答 
音频 P2P 搜 索 
音乐 

1.2 重要 问题 


信息 检索 的 研究 者 们 把 注意 力 集中 在 一 些 关键 问题 上 ， 这 些 问题 在 20 世 纪 60 年 代 文 本 集 
合 的 大 小 为 1.5MB 时 很 重要 ， 在 当今 能 够 处 理 数 十 亿 网 页 的 商业 化 网 络 搜索 引擎 时 代 ， 这 些 
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问题 仍然 非常 重要 。 其 中 一 个 关键 问题 是 相关 性 (relevance)。 相 关 性 是 信息 检索 中 的 基本 概 
念 ， 不 严格 地 讲 ， 一 个 相关 文档 包含 了 当 一 个 人 把 查询 发 给 搜索 引擎 后 他 要 找 的 信息 。 尽管 
这 个 定义 听 上 去 有 些 简单 ， 但 在 一 个 人 判断 一 篇 文档 是 否 相关 时 ， 有 许多 因素 会 影响 他 的 决 
策 。 在 设计 比较 文本 以 及 对 文档 进行 排序 的 算法 时 ， 需 要 考虑 这 些 因素 。 如 果 像 数据 库 系统 
或 者 Unix 中 的 文本 查找 工具 那样 ， 对 查询 和 文档 进行 简单 的 比较 ， 寻 找 精确 的 匹配 ， 那 结果 
的 相关 性 一 定 很 差 。 一 个 明显 的 原因 是 : 语言 可 以 用 许多 不 同 的 方式 ， 通常 是 用 不 同 的 词语 ， 
， 表 达 同 一 个 概念 ， 这 在 信息 检索 中 称 为 词 表 不 匹配 问题 (vocabulary mismatch problem) , 

有 必要 区 分 话题 相关 (topical relevance) 和 用 户 相关 (user relevance) 这 两 个 概念 。 如 
果 一 个 文本 与 查询 是 话题 相关 的 ， 就 意味 着 两 者 有 相同 的 话题 。 例 如 ， 关于 堪萨斯 州 龙卷风 
的 新 闻 报 道 ， 与 查询 “严重 天 气 事件 ”是 话题 相关 的 。 如 果 提 这 个 问题 的 人 以 前 曾经 看 过 那 
.篇 报道 ， 或 者 那 篇 报道 是 五 年 前 发 表 的 ， 或 者 那 篇 报道 来 自 中 国 通讯 社 并 用 中 文 写成 ， 那 么 
他 (通常 称 为 用 户 ) 可 能 不 认为 那 篇 报道 是 相关 的 。 因 此 ， 用 户 相关 会 考虑 该 报道 的 一 些 附 
加 特性 。 

为 了 探讨 相关 性 问题 ， 研 究 者 们 提出 了 多 种 检索 模型 (retrieval model), 并 测试 这 些 模 型 
的 作用 。 一 个 检索 模型 是 对 查询 与 文档 匹配 过 程 的 形式 化 表示 ， 它 是 排序 算法 (ranking 
algorithm) 的 基础 ， 搜 索引 擎 利用 排序 算法 生成 文档 的 有 序列 表 。 一 个 好 的 检索 模型 能 够 找 
到 那些 与 提问 者 相关 的 文档 。 有 些 检索 模型 集中 在 话题 相关 性 上 ， 但 一 个 部 团 在 真实 环境 中 
的 搜索 引擎 ， 必 须 使 用 包含 了 用 户 相关 性 的 排序 算法 。 

在 信息 检索 中 ， 检 索 模 型 的 一 个 有 趣 的 特点 是 ， 它 们 往往 对 文本 的 统计 特征 而 不 是 语言 
结构 建 模 。 举 例 来 说 ， 这 就 意味 着 排序 算法 会 更 多 地 考虑 词 出 现 的 数量 ， 而 不 关心 一 个 词 是 
名 词 还 是 形容 词 。 更 先进 的 模型 能 够 采用 语言 特征 ， 但 仍 把 语言 特征 的 重要 性 放 在 第 二 位 。 
”对 词 频 信 息 的 使 用 始 于 20 世 纪 50 年 代 信 息 检 索 领 域 的 另 一 位 先驱 H. P. Luhn, 直到 20 世 纪 90 年 
代 ， 这 种 看 待 文本 的 视角 才 在 计算 机 科学 的 其 他 领域 (比如 自然 语言 处 理 ) 流行 起 来 。 

信息 检索 的 另 一 个 核心 问题 是 评价 问题 。 由 于 文本 排序 的 质量 依赖 于 该 文本 与 用 户 期 户 
的 匹配 程度 ， 因 此 有 必要 及 早 制定 评价 体系 ， 以 及 获取 评价 数据 、 比 较 排序 算法 的 实验 步 又。 
在 20 世 纪 60 年 代 ，Cyril Cleverdon 率 先 制 定 了 评价 方法 ， 他 使 用 的 两 种 评价 指标 ， 准 确 率 
(precision) 和 召回 率 (recall) ， 目 前 仍 很 流行 。 准 确 率 是 非常 符合 直觉 的 评价 指标 ， 它 是 检 
索 出 来 的 文档 中 相关 文档 所 占 比 例 。 召 回 率 是 全 部 相关 文档 中 被 检索 出 来 的 文档 比例 。 当 使 
用 召回 率 这 个 评价 指标 时 ， 有 一 个 假设 : 对 于 给 定 的 查询 ， 我 们 知道 所 有 的 相关 文档 。 在 网 
络 搜索 环境 下 ， 这 样 的 假设 显然 是 有 问题 的 ， 但 对 于 比较 小 的 文档 测试 集合 (test collection), 
这 样 的 指标 是 有 用 的 。 一 个 信息 检索 实验 的 测试 集合 ， 由 文本 文档 集合 、 典 型 查询 样本 和 每 
个 查询 的 相关 文档 列表 (相关 性 判别 (relevance judgment)) 组 成 。 最 知名 的 测试 集 是 TREC 
(Text REtrieval Conference, http://trec.nist.gov/) 评测 会 议 提供 的 测试 集 。 

检索 模型 和 搜索 引擎 的 评测 是 一 个 非常 活跃 的 领域 ， 目 前 的 热点 集中 在 使 用 大 量 的 从 用 
户 交互 中 获得 的 日 志 数 据 ， 比 如 点 击 流 (clickthrough) 数据 ， 点 击 流 数 据 记 录 了 在 一 个 搜索 
过 程 中 被 点 击 的 文档 。 点 击 流 和 其 他 日 志 数 据 与 相关 性 有 很 大 的 关联 ， 因 此 可 以 用 它 来 对 搜 
索 进 行 评价 ， 但 是 搜索 引擎 公司 仍然 使 用 相关 性 判别 作为 日 志 数 据 的 补充 ， 以 便 确保 结果 的 
有 效 性 。 

信息 检索 的 第 三 个 核心 问题 是 注重 用 户 和 他 们 的 信息 需求 (information need)， 这 一 原则 
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是 显而易见 的 ， 因 为 对 搜索 的 评价 是 以 用 户 为 中 心 的 ， 即 搜索 引擎 用 户 是 搜索 质量 的 终极 判 
定 者 。 这 种 理念 引发 了 大 量 关 于 人 们 怎样 与 搜索 引擎 之 间 进 行 交 互 的 研究 ， 特 别 是 开发 帮助 
用 户 表达 他 们 的 信息 需求 的 技术 。 信 息 需 求 是 人 们 向 搜索 引 警 发送 查询 的 背后 动因 。 与 数据 
库 系统 的 需求 〈 比 如 某 个 银行 账户 的 存款 余额 ) 相 比 ， 文 本 查询 通常 是 用 户 实 际 需 求 的 一 种 
很 糟糕 的 描述 。 一 个 单词 查询 如 “ 猫 ”， 可 能 表示 “在 包 儿 能 买 到 猫 ” 或 要 查询 百老汇 徊 士 乐 
的 信息 。 尽 管 很 缺乏 特 指 性 ， 但 在 网 络 搜索 中 一 个 词 的 查询 仍 非常 普遍 。 像 查询 建议 (query 
suggestion), Fifi He (query expansion) 和 相关 反馈 (relevance feedback) 这 些 技术 ， 使 用 
交互 的 方式 和 上 下 文 环 境 来 优化 初始 的 查询 ， 以 便 产 生 更 好 的 排序 列表 。 

这 些 问 题 将 贯穿 本 书 ， 并 进行 非常 细致 的 讨论 。 我 们 现在 已 其 备 充 分 的 背景 知识 来 讨论 
信息 检索 研究 中 的 主要 产品 ， 即 搜索 引擎。 


1.3 搜索 引擎 


搜索 引擎 是 信息 检索 技术 在 大 规模 文本 集合 上 的 实际 应 用 。 网 络 搜索 引擎 是 一 个 明显 的 
例子 ， 但 如 前 所 述 ， 搜 索引 警 有 许多 不 同 的 应 用 ， 比 如 桌面 搜索 或 企业 搜索 。 搜 索引 警 的 出 
现 已 经 有 很 多 年 了 , 例如 MEDLINE 系 统 是 在 线 医学 文献 搜索 系统 ， 从 20 世 纪 70 年 代 开始 兴起 。 
“搜索 引擎 ”一 词 原来 是 指 为 文本 搜索 服务 的 特殊 的 硬件 。 从 20 世 纪 80 年 代 中 期 开始 ， 在 描述 
用 来 比较 查询 和 文档 并 生成 文档 排序 结果 的 软件 系统 时 ， 逐 渐 更 多 地 使 用 “搜索 引擎 ”一 词 ， 
而 不 是 “信息 检索 系统 ”。 关 于 搜索 引擎 的 内 容 比 排序 算法 当然 要 丰富 得 多 ， 我 们 将 在 下 一 章 
讨论 这 些 系统 的 一 般 结 构 。 

为 了 满足 不 同 应 用 的 需求 ， 搜 索引 整 被 设计 成 各 种 不 同 的 结构 。 网 络 搜索 引擎 ， 比 如 
Yahoo， 必 须 能 够 捕获 ， 或 者 说 热 取 (crawl) T 级 的 数据 ， 并 对 每 天 收 到 的 全 世界 数 以 百 万 计 
的 查询 提供 亚 秒 级 的 响应 时 间 。 企 业 搜 索引 擎 ， 比 如 Autonomy ， 必 须 能 够 处 理 一 个 公司 内 部 
不 同类 型 的 信息 源 ， 使 用 与 公司 有 关 的 特殊 知识 作为 搜索 和 相关 任务 (如 数据 挖掘 (data 
mining)) 的 一 部 分 。 数 据 挖掘 指 从 数据 中 自动 发 现 有 趣 的 结构 ， 也 包括 聚 类 (clustering) 技 
术 。 桌 面 搜索 引擎 ， 比 如 微软 的 Vista™ 搜 索 必 须 能 够 在 人 们 制作 和 浏览 新 文档 、 网 页 和 邮件 
时 快速 地 合并 ， 同 时 提供 非常 直观 的 界面 来 搜索 这 些 非常 异 质 的 混合 信息 。 

开源 (open source) 搜索 引擎 是 另外 一 类 重要 的 搜索 系统 ， 与 商业 搜索 引擎 有 不 同 的 设 
计 目 标 。 这 样 的 系统 很 多 ， 维 基 百 科 关 于 信息 检索 的 页 面 有 多 个 链接 指向 许多 开源 搜索 引擎 。 
三 个 特别 有 趣 的 系统 是 Lucene、Lemur 和 本 书 提供 的 Galago。Lucene 是 一 个 基于 Java 的 流行 的 
搜索 引 警 ， 它 已 经 被 用 于 大 范围 的 商业 应 用 中 ， 其 中 使 用 的 信息 检索 技术 相对 简单 。Lemur 是 
一 个 开源 的 工具 包 ， 包 含 基于 Iadri C++ 的 搜索 引擎 ，Lemur 主 要 被 信息 检索 研究 者 用 来 比较 
先进 的 搜索 技术 。Galago 是 一 个 基于 Java 的 搜索 引擎 ， 它 基于 Lemur 和 Indri 项 目 。 本 书 的 习题 
大 量 使 用 Galago。Calago 的 速度 快 、 有 自 适 应 能 力 而 且 易 于 理解 ， 它 融合 了 非常 有 效 的 信息 
检索 技术 。 

搜索 引擎 设计 中 的 重要 问题 包括 了 信息 检索 中 的 各 种 问题 : 有 效 的 排序 算法 、 评 价 及 用 
户 交 互 。 此 外 ， 在 搜索 引擎 的 部 署 过 程 中 遇 到 的 大 规模 数据 的 运行 环境 ， 还 给 搜索 引擎 带 来 
了 其 他 许多 难题 。 这 些 难 题 中 的 首要 问题 是 搜索 引擎 的 性 能 ， 评 价 指标 包括 响应 时 间 
(response time), #9 F HÆ (query throughput) 和 索引 速度 (indexing speed)。 响 应 时 间 是 
从 发 出 一 个 查询 请 求 到 得 到 检索 结果 列表 之 间 的 延迟 。 香 吐 量 是 在 一 个 给 定时 间 内 能 够 处 理 
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的 查询 数量 。 索 引 速 度 是 为 文本 文档 编排 索引 以 便 用 于 搜索 的 速率 。 为 搜索 引 敬 服务 的 索引 
设计 是 本 书 的 重要 主题 。 

另 一 个 重要 的 性 能 指标 是 把 新 数据 合并 到 索引 中 的 速度 。 搜 索 应 用 往往 要 处 理 动态 持 
续 变 化 的 信息 。 覆 盖 率 (coverage) 衡量 现存 信息 〈 比 如 在 一 个 企业 信息 环境 中 ) 有 多 少 
被 索引 和 存储 在 搜索 引擎 中 。 新 近 性 (recency) 或 时 新 性 (freshness) 衡量 所 存 信 息 的 年 
we (age), 

搜索 引擎 可 以 用 在 小 规模 数据 集 上 ， 比 如 桌面 上 的 几 百 封 邮 件 和 文档 ， 也 可 以 用 于 极 大 
规模 的 数据 集 ， 比 如 整个 互联 网 。 对 某 个 应 用 可 能 只 有 很 少 的 一 些 用 户 ， 也 可 能 有 成 千 上 万 
的 用 户 。 对 搜索 引擎 来 说 ， 可 扩充 性 (scalability) 很 明显 是 一 个 重要 问题 。 面 向 一 个 特定 应 
用 的 设计 应 该 考虑 到 数据 量 和 用 户 量 的 增长 。 在 1.1 节 ， 我 们 介绍 了 搜索 引擎 是 怎样 用 于 多 种 
应 用 和 多 种 任务 的 ， 为 了 完成 这 些 任务 ， 搜 索引 擎 必须 是 可 定制 的 (customizable) 或 者 说 是 
自 适 应 的 (adaptable)。 这 意味 着 搜索 引擎 的 许多 功能 ， 比 如 排序 算法 、 界 面 或 索引 策略 ， 能 
够 为 满足 新 的 应 用 需要 而 调整 和 适应 。 . 

特殊 应 用 也 会 影响 搜索 引擎 的 设计 ， 最 好 的 例子 是 网 络 搜索 中 的 垃圾 信息 (spam), HF 
圾 信息 一 般 被 视 为 非 所 要 的 邮件 ， 但 更 一 般 地 可 以 被 定义 为 ， 为 某 种 商业 利益 而 制作 的 文档 
中 误导 的 、 不 合适 的 或 不 相关 的 信息 。 有 许多 类 型 的 垃圾 信息 ， 但 搜索 引擎 必须 处 理 的 一 种 
类 型 是 文档 中 的 垃圾 词 , 这 些 词 导致 该 文档 能 够 在 搜索 引擎 响 应 一 些 热门 查询 时 被 检索 出 来 。 
由 于 垃圾 索引 (spamdexing) 显著 地 导致 搜索 引擎 排序 质量 的 降低 ， 网 络 搜索 引擎 的 设计 者 
不 得 不 开发 能 够 识别 和 删除 这 些 垃 圾 文档 的 技术 。 图 1-1 总 结 了 搜索 引擎 设计 中 涉及 的 主要 
问题 。 


信息 检索 . 搜索 引擎 


相关 性 
-有 效 排序 


性 能 
-有 效 的 搜索 和 索 引 
评价 ba 


-测试 和 测量 
信息 需求 
-用 户 交互 


可 扩充 性 

- 随 着 数据 量 和 用 户 量 而 
增长 

自 适应 

-为 适应 特定 应 用 而 做 调 
节 


特殊 问题 
-如 : 垃圾 信息 





图 1-1 搜索 引擎 设计 及 核心 信息 检索 问题 
根据 信息 检索 和 搜索 引擎 关系 的 讨论 ， 我 们 现在 来 考虑 计算 机 科学 家 和 其 他 人 在 搜索 引 
区 设计 和 使 用 中 所 扮演 的 角色 。 
1.4 搜索 工程 师 


信息 检索 研究 包括 文本 和 语言 的 数学 模型 的 建立 、 带 有 测试 集合 与 用 户 的 大 规模 环境 的 
建立 ， 以 及 大 量 学 术 论 文 的 写作 。 由 于 这 些 原因 ， 此 类 研究 比较 适合 专业 学 者 或 研究 实验 室 
中 的 人 们 来 做 。 这 些 人 主要 是 受到 过 计算 机 科学 训练 的 人 ， 尽 管 信 息 科 学 、 数 学 ， 甚 至 社会 
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科学 和 计算 语言 学 也 是 需要 的 。 那 么 谁 来 做 搜索 引擎 昵 ? 在 很 大 程度 上 ， 还 是 同一 种 人 ， 只 
不 过 应 该 更 强调 实践 能 力 。 计 算 机 产业 已 经 开始 使 用 “搜索 工程 师 ”(search engineer) 一 词 
来 指称 这 种 类 型 的 人 。 搜 索 工 程 师 主要 是 受过 计算 机 科学 训练 的 人 ， 多 数 有 计算 机 系统 或 数 
据 库 的 背景 。 令 人 惊讶 的 是 ， 他 们 当中 很 少 有 人 受过 信息 检索 方面 的 训练 ， 这 也 是 撰写 本 书 
的 动机 之 一 。 

搜索 工程 师 的 角色 是 什么 ?当然 ， 那 些 在 设计 和 实现 新 搜索 引擎 的 主要 的 互联 网 搜索 公 
司 工作 的 人 是 搜索 工程 师 ， 但 搜索 工程 师 中 的 大 部 分 人 是 那些 修改 、 扩 充 、 维 护 和 调整 现 有 
搜索 引擎 ， 以 满足 大 范围 商业 应 用 需求 的 人 。 为 搜索 引擎 设计 和 优化 内 容 的 人 ， 以 及 实现 垃 
圾 信息 处 理 的 人 也 是 搜索 工程 师 。 搜 索 工 程 师 所 开发 的 搜索 引擎 覆盖 了 上 一 节 提 到 的 全 部 搜 
索引 擎 ， 他 们 主要 使 用 开源 搜索 引擎 和 企业 搜索 引擎 做 应 用 开发 ， 但 也 最 有 效 地 使 用 桌面 搜 
索引 擎 和 网 络 搜索 引擎 。 

在 现代 计算 机 应 用 中 ， 搜 索 的 重要 性 和 普 适 性 意味 着 ， 搜 索 工 程 已 经 成 为 计算 机 产业 中 
一 种 重要 的 职业 。 然 而 ， 在 计算 机 科学 系 中 ， 只 有 非常 少 的 教程 从 信息 检索 的 视角 给 学 生 们 
补充 搜索 方面 的 知识 。 本 书 旨 在 帮助 潜在 的 搜索 工程 师 理解 搜索 ， 并 掌 担 相 关 的 工具 。 
参考 文献 和 深入 阅读 

在 每 一 章 中 ， 我 们 都 提供 一 些 论文 和 书籍 的 列表 ， 这 些 资 料 对 所 讨论 的 主题 提供 了 更 为 
详细 的 论述 。 补 充 读物 对 于 理解 本 书 的 内 容 来 说 并 不 是 必需 的 ， 但 如 能 参考 这 些 资料 ， 可 以 
了 解 更 多 的 背景 ， 并 在 一 些 情 况 下 获得 更 深入 的 理解 ， 也 可 以 接触 到 更 高 级 的 主题 ， 其 中 会 
描述 本 书 没 有 覆盖 的 技术 和 研究 成 果 。 

根据 我 们 的 观点 ， 信 息 检 索 领 域 最 经 典 的 参考 文献 是 Salton (1968;1983) 和 van 
Rijsbergen (1979) 的 三 本 书 。Van Rijsbergen 的 书 自从 在 网 上 发 布 以 来 就 一 直 很 流行 ， 这 三 
本 书 非 常 精 彩 地 描述 了 信息 检索 早期 (直到 20 世 纪 70 年 代 末 ) 的 研究 成 果 。 根 据 计 算 机 科学 
对 信息 检索 领域 的 定义 ，Salton 的 早期 著作 特别 重要 。 最 近 的 书包 括 Baeza-Yates 和 Ribeiro- 
Neto (1999) 和 Manning 等 (2008), 

与 本 书 覆 盖 的 全 部 主题 相关 的 研究 论文 ， 可 以 在 美国 计算 机 协会 (ACM) 信息 检索 特殊 
兴趣 组 (SIGIR) 年 会 的 论文 集中 找到 。 这 些 论文 集 可 以 从 网 上 ACM 数 字 图 书馆 得 到 。 信 息 
检索 欧洲 会 议 (ECIR) 、 信 息 与 知识 管理 (CIKM) 和 网 络 搜索 与 数据 挖掘 会 议 (WSDM) 的 
论文 集中 ， 也 有 一 些 好 的 论文 。WSDM 会 议 是 从 WWW 会 议 派生 出 来 的 会 议 ， 包 括 了 一 些 网 
络 搜索 的 重要 论文 。TREC 会 议 的 论文 集 可 以 在 线 获得 ， 其 中 介绍 了 许多 来 自 不 同 的 学 术 和 工 
业 组 织 的 新 技术 。 对 TREC 实 验 的 综述 ， 可 以 在 Voorhees 和 Harman (2005) 中 得 到 。 在 数据 库 
会 议 ， 如 VLDB 和 SIGMOD 中 ， 与 搜索 相关 的 论文 在 不 断 增长 ， 在 语言 技术 的 会 议 ， 如 ACL 
和 HLT (计算 语言 学 和 人 类 语言 技术 协会 ) 以 及 机 器 学 习 等 其 他 会 议 上 ,偶尔 也 有 与 搜索 相 
关 的 文章 。 


练习 


1.1 恩 考 并 写 出 若干 用 于 网 络 搜索 引擎 的 查询 ， 确 保 这 些 查 询 的 长 度 不 同 (比如 不 要 全 都 是 
一 个 词 )。 尝 试 在 某 些 查 询 中 详细 而 准确 地 说 明 你 要 找 什么 信息 。 在 两 个 商业 网 络 搜索 引 
柳 中 提交 这 些 查 询 ， 并 通过 相关 性 判断 比较 前 10 个 结果 。 写 一 个 报告 ， 至 少 回 答 以 下 间 
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题 : 结果 的 准确 率 如 何 ? PS RRM BBR aot? 其 中 一 个 搜索 引擎 明显 比 
另 一 个 好 吗 ? 如 果 是 这 样 ， 好 多 少 ? 短 查询 和 长 查询 的 效果 相 比 如 何 ? 

1.2 站 内 搜索 (site search) 是 另 一 个 搜索 引擎 的 常见 应 用 。 此 时 ， 搜 索 被 限制 在 一 个 给 定 网 
站 的 页 面 里 。 请 对 站 内 搜索 、 网 络 搜索 、 垂 直 搜 索 和 企业 搜索 进行 对 比分 析 。 

1.3 列 出 5 个 你 使 用 的 网 络 服务 或 网 站 ， 这 些 网 站 使 用 搜索 但 并 不 是 网 络 搜索 引擎 。 描 述 搜索 
在 这 些 服务 中 扮演 的 角色 ， 同 时 描述 其 中 的 搜索 是 否 基于 数据 库 或 grep 风 格 的 匹配 技术 ， 
是 否 使 用 了 某 种 类 型 的 排序 算法 。 

1.4 在 网 上 尽 可 能 多 地 查找 开源 搜索 引擎 、 信 息 检 索 系 统 和 相关 技术 的 例子 。 给 出 对 每 个 搜 
索引 擎 的 简短 描述 ， 并 总 结 它们 之 间 的 异同 。 


第 2 章 搜索 引擎 的 架构 


“你 的 第 一 个 问题 也 许 是 最 恰当 的 ， 你 可 能 会 或 者 可 能 不 会 意识 到 ， 它 也 是 最 不 相关 的 。” 
设计 师 , 《黑客 帝国 2: EKLE) 





2.1 什么 是 软件 架构 

在 本 章 我 们 将 描述 搜索 引擎 的 基本 软件 架构 。 对 于 软件 架构 的 定义 ， 尽 管 没 有 一 个 统一 
的 规范 ， 但 软件 架构 通常 包括 软件 组 件 、 组 件 提 供 的 接口 以 及 各 组 件 之 间 的 联系 。 软 件 架 构 
是 在 一 个 特殊 的 抽象 层次 用 于 描述 系统 的 工具 。UIMAS (Unstructured Information 
Management Architecture， 非 结构 化 信息 管理 架构 ) 是 一 个 软件 架构 的 实例 ， 该 架构 用 于 提 
供 一 个 将 搜索 和 相关 语言 技术 组 件 整 合 在 一 起 的 标准 。UIMA 为 组 件 定义 了 接口 ， 使 系统 在 增 
加 处 理 文 本 和 其 他 非 结 构 化 数据 的 技术 的 时 候 ， 变 得 更 加 简单 。 

搜索 引擎 的 架构 用 于 提供 对 于 系统 中 重要 的 组 件 以 及 组 件 之 间 关 系 的 高 层次 的 描述 。 尽 
管 架 构 中 有 些 组 件 的 确 相当 于 Galago 和 其 他 搜索 引擎 的 软件 模块 ， 但 它 并 不 是 一 个 对 于 系统 
的 代码 级 的 描述 。 在 本 章 及 本 书 中 我 们 都 使 用 该 软件 架构 ， 以 便 为 讨论 特定 的 技术 提供 背景 。 

架构 的 设计 用 于 保证 系统 能 够 满足 应 用 需求 或 目标 。 搜 索引 擎 的 两 个 主要 目标 是 : 

“SR (质量 ): 对 于 一 个 用 户 查 询 ， 希 望 能 够 检索 到 最 多 的 相关 文档 。 

。 效 率 速度): 尽 可 能 快 地 处 理 用 户 的 查询 。 

也 许 系 统 还 有 其 他 一 些 特殊 目标 ， 但 这 些 也 都 属于 效果 问题 或 者 效率 问题 (或 者 两 者 都 
有 )。 例 如 ， 搜 索 的 文档 集合 发 生 了 变化 ， 如 何 确保 搜索 引擎 系统 对 该 变化 做 出 快速 的 反应 ， 
就 属于 效果 和 效率 问题 。 

搜索 引擎 的 架构 是 由 效果 和 效率 这 两 个 需求 决定 的 。 原 因 在 于 ， 用 户 需 要 一 个 有 效率 的 
系统 。 搜 索引 擎 采用 专门 的 、 经 过 优化 的 数据 结构 ， 以 达到 快速 检索 的 目的 ， 用 户 需要 高 质 
量 的 结果 ， 搜 索引 擎 对 文本 进行 深入 的 加 工 处 理 ， 并 存储 有 助 于 改善 结果 相关 性 计算 的 文本 
统计 学 结果 。 

在 接 下 来 的 章节 中 讨论 的 一 些 组 件 ， 已 经 沿用 了 几 十 年 。 事 实证 明 ， 这 种 通用 的 设计 对 于 
检索 效率 和 检索 效果 的 折 中 起 着 重要 的 作用 。 在 后 续 的 章节 中 ， 会 进一步 详细 讨论 这 些 组 件 。 


2.2 基本 的 构件 


搜索 引擎 的 组 件 主要 提供 两 种 功能 ， 也 就 是 我 们 所 说 的 索引 处 理 (indexing process) 和 
查询 处 理 (query process) 。 索 引 处 理 建立 可 查找 的 数据 结构 ， 查 询 处 理 使 用 这 些 数 据 结构 和 
用 户 的 查询 生成 一 个 排 好 序 的 文档 列表 。 图 2-1 给 出 了 索引 处 理 的 高 级 “构件 ”(building 
bjiock)。 这 些 主要 的 组 件 包括 文本 采集 (text acquisition) 、 文 本 转换 (text transformation) 和 
索引 创建 (index creation), 
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文本 采集 组 件 用 于 发 现 文档 ， 并 且 使 这 些 文档 能 够 被 搜索 到 。 尽 管 有 时 候 系 统 可 以 仅仅 
使 用 已 有 的 文档 集合 ， 但 文本 采集 通常 需要 通过 爬行 (crawling) 或 者 扫描 互联 网 、 企 业内 部 
网 、 桌 面 或 者 其 他 信息 源 ， 来 建立 一 个 文档 集合 。 除 了 将 这 些 文档 传递 给 索引 处 理 中 的 下 一 
个 组 件 , 文本 采集 组 件 还 创建 一 个 文档 数据 库 , 其 中 包含 所 有 文档 的 文本 和 元 数据 (metadata), 
元 数据 表示 的 不 是 文档 的 部 分 内 容 ， 而 是 关于 一 篇 文档 的 信息 ， 如 文档 类 型 (例如 电子 邮件 、 
网 页 )、 文 档 结构 ， 或 者 其 他 的 特征 ， 如 文档 的 长 度 。 

文本 转换 组 件 将 文档 转换 为 索引 项 (index term) 或 者 特征 (feature)。 顾 名 思 义 ， 索 引 
项 是 文档 的 一 部 分 ， 存 储 在 索引 表 中 并 且 用 于 搜索 。 最 简单 的 索引 项 是 一 个 词 ， 但 并 不 是 每 
一 个 词 都 可 以 用 于 搜索 。“ 特 征 ” 更 普遍 地 是 应 用 于 机 器 学 习 领 域 中 ， 是 指 文档 的 一 部 分 ， 用 
于 表达 文档 的 内 容 ， 特 征 也 可 以 用 来 描述 索引 项 。 其 他 类 型 的 索引 项 或 者 特征 ， 是 诸如 短语 、 
人 名 、 日期、 网 页 中 的 超 链接 等 等 。、 索 引 项 有 时 也 简单 地 称 作 “ 词 项 ”。 索 引 整 个 文档 集合 的 
所 有 词 项 集合 ， 称 为 索引 词 表 (index vocabulary ) 。 


文档 数据 库 


| XER 
m RE | | aae = 
电子 邮件 、 网 页 、 Q GA į 


新 闻 、 备 忘 录 、 书 信 A 
文本 转换 











图 2-1 索引 处 理 


索引 创建 组 件 利用 文本 转换 组 件 的 输出 结果 ， 创 建 索 引 或 者 数据 结构 ， 以 便于 实现 快速 
搜索 。 在 一 些 应 用 系统 中 ,文档 的 规模 很 大 ， 索 引 的 创建 在 时 间 和 空间 上 都 必须 是 高 效 的 。 
当 新 的 文档 加 入 到 文档 集合 中 ， 索 引 表 必须 能 够 高 效 地 更 新 (updated)。 倒 排 索 引 (inverted 
index) ， 有 时 也 称 为 倒 排 文件 (inverted file) ， 是 到 目前 为 止 搜索 引擎 使 用 得 最 普遍 的 索引 形 
式 。 倒 排 索 引 中 ， 每 一 个 索引 项 都 含有 一 个 列表 ， 列 表 中 包含 那些 含有 该 索引 项 的 所 有 文档 。 
这 是 一 种 相对 意义 的 倒 排 : 针对 一 个 文档 集合 ， 每 一 个 文档 都 含有 一 个 列表 ， 列 表 中 包含 该 
文档 含有 的 所 有 索引 项 。 倒 排 索引 的 形式 多 种 多 样 ， 而 索引 的 使 用 形式 是 搜索 引擎 中 的 一 个 
重要 方面 。 

图 2-2 给 出 了 查询 处 理 中 的 构件 。 主 要 的 组 件 包 括 : 用 户 交 互 (user interaction) 、 排 序 
(ranking) 和 评价 (evaluation), 

用 户 交互 组 件 提 供 了 搜索 用 户 和 搜索 引擎 之 间 的 接口 。 用 户 交互 组 件 的 一 个 功能 是 接收 
用 户 查询 并 将 它 转 换 为 索引 项 ， 另 一 个 功能 是 从 搜索 引 敬 得 到 一 个 排 好 序 的 文档 列表 ， 并 将 
它 重新 组 织 成 搜索 结果 显示 给 用 户 。 例 如 ， 包 括 生 成 概括 文档 的 摘要 (snippet) 。 文 档 数 据 库 
是 用 于 生成 结果 的 一 个 信息 源 。 最 后 ， 该 组 件 还 提供 一 些 技术 ， 用 于 完善 用 户 的 查询 ， 以 便 
它 能 够 更 好 地 反映 用 户 需 求 的 信息 。 

排序 组 件 是 搜索 引擎 系统 的 核心 。 它 使 用 从 用 户 交 互 组 件 得 到 的 转换 之 后 的 查询 ， 并 且 根 
据 检 索 模型 生成 一 个 按照 分 值 排 好 序 的 文档 列表 。 排 序 必 须 是 高 效 的 ， 因 为 短 时 间 内 需要 处 
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理 大 量 的 用 户 查 询 ， 排 序 也 必须 是 高 质量 的 ， 因 为 排序 的 质量 决定 着 搜索 引擎 是 否 能 够 实现 
找到 相关 信息 的 目标 。 排 序 的 效率 依赖 于 索引 技术 ， 而 排序 的 质量 依赖 于 所 采用 的 检索 模型 。 





图 2-2 查询 处 理 


评价 组 件 用 于 评测 和 监测 系统 的 效果 和 效率 。 一 个 重要 的 任务 是 利用 日 志 数 据 (log data) 
来 记录 和 分 析 用 户 的 行为 。 评 价 的 结果 用 来 调整 和 改善 排序 组 件 的 性 能 。 除 了 记录 用 户 和 系 
统 的 日 志 数据 ， 评 价 组 件 中 大 部 分 都 不 是 在 线 搜索 引擎 的 一 部 分 。 评 价 组 件 主要 是 一 种 离线 
行为 ,但 是 对 于 任意 一 种 搜索 应 用 来 讲 ， 它 都 是 很 关键 的 部 分 。 


2.3 组 件 及 其 功能 


现在 需要 更 细致 地 了 解 每 一 个 基本 构件 中 的 组 件 。 并 不 是 每 一 个 搜索 引擎 都 采用 所 有 这 
些 组 件 ， 但 是 它们 涵盖 了 大 部 分 的 搜索 应 用 中 我 们 认为 最 主要 的 功能 。 


2.3.1 文本 采集 


LRS 

fee RSMAS, Rh (crawler) 组 件 对 于 搜索 引擎 发 现 和 抓 取 文档 具有 首 
要 的 责任 。 疏 虫 的 类 型 有 很 多 种 ， 但 最 普遍 的 是 网 络 怜 虫 。 网 络 导 虫 通过 追踪 网 页 上 的 超 链 
接 来 找到 并 下 载 新 的 页 面 。 尽 管 这 听 起 来 很 简单 ， 但 是 如 何 能 够 高 效 处 理 互联 网 上 大 量 出 现 
的 新 网 页 ， 而 且 如 果 上 次 爬虫 抓 取 过 的 网 页 发 生 了 变化 ,如何 保 证 所 抓 取 的 页 面 是 “时 新 的 ”， 
这 对 于 网 络 疏 虫 的 设计 是 一 项 极 富 挑战 性 的 任务 。 网 络 扑 虫 的 抓 取 任务 可 以 限制 在 一 个 单独 
的 站 点 ， 如 一 所 大 学 的 站 点 ， 以 此 为 基础 进行 站 内 搜索 (site search) 。 主 题 (focused) 网 络 
MER BIER (topical) 网 络 息 虫 采用 分 类 技术 来 限制 所 访问 的 网 页 是 关于 同一 个 主题 的 。 
对 于 垂直 搜索 (vertical search) 或 者 话题 搜索 (topical search) 的 应 用 系统 ， 比 如 一 个 搜索 引 
鸡 只 提供 对 医学 信息 的 存 取 ， 可 以 采用 主题 网 络 腿 虫 或 者 话题 网 络 咎 虫 。 

对 于 企业 搜索 ， 扑 虫 适用 于 找到 并 更 新 所 有 与 公司 运营 相关 的 文档 和 网 页 。 企 业 文档 疏 
th (document crawler) 跟踪 网 页 上 的 超 链 接 来 发 现 外 部 的 和 内 部 的 (限制 在 企业 内 部 网 ) 页 
面 ， 而 且 还 必须 扫描 公司 的 和 个 人 的 目录 ， 来 发 现 电 子 邮件 、 文 档 、 讲 稿 、 数 据 库 以 及 其 他 
的 公司 信息 。. 文 档 聆 虫 还 可 以 用 于 桌面 搜索 ， 虽 然 只 是 对 用 户 个 人 的 目录 进行 扫描 。 
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2. 信息 源 

文档 信息 源 (document feed) 是 一 种 存 取 实时 文档 流 的 机 制 。 例 如 ， 新 闻 信 息 源 是 一 个 
持续 不 断 的 新 闻 流 及 新 闻 的 更 新 。 候 虫 必须 能 够 发 现 新 的 文档 ， 而 与 之 相 比 ， 搜 索引 擎 期 望 
仅仅 通过 监测 信息 源 ， 就 能 够 抓 取 新 的 文档 。 对 于 新 闻 、 博 客 、 视 频 等 这 样 一 些 互联 网 上 的 
内 容 ，RSSS 是 互联 网 上 信息 源 采用 的 一 个 通用 标准 。RSS“ 阅 读 器 ”用 于 支持 RSS 信 息 源 ， 
RSS 信 息 源 都 采用 标准 的 XMLS 数 据 格式 。 与 HTML 人 语言 类 似 ，XML 是 一 种 用 于 描述 数据 
格式 的 语言 。 阅 读 器 监测 信息 源 ， 可 以 获取 信息 源 更 新 的 内 容 。 广 播 和 电视 信息 源 也 可 以 应 
用 于 搜索 中 ， 这 种 类 型 的 “文档 ”中 含有 一 些 自动 分 段 的 音频 和 视频 流 ， 以 及 相关 的 隐藏 字 
幕 和 语音 。 

3. 转换 

由 礁 虫 发 现 的 文档 或 者 由 信息 源 提供 的 文档 ， 通 常 都 不 是 纯 文本 ， 它 们 的 格式 多 种 多 样 ， 
如 HTML、XML、Adobe PDF, Microsoft Word， 或 者 是 Microsoft PowerPoint 等 等 。 大 多 数 的 
搜索 引擎 需要 将 这 些 文档 转换 成 统一 的 文本 格式 和 文档 的 元 数据 格式 。 在 转换 过 程 中 ， 控 制 
序列 和 具有 特殊 格式 的 非 内 容 的 数据 ， 或 者 被 删除 ， 或 者 作为 元 数据 进行 记录 。 大 部 分 对 于 
HTML 和 XML 文档 的 处 理 ， 可 以 看 作 是 文本 转换 组 件 中 的 一 部 分 。 而 对 于 其 他 格式 的 文档 ， 
转换 过 程 是 作为 对 该 文档 进行 深入 加 工 处 理 的 基础 。 例 如 ，PDEF 文 梢 必须 转换 成 文本 。 有 很 
多 实用 程序 可 以 完成 这 个 转换 过 程 ， 而 不 同 的 程序 转换 的 精度 是 不 同 的 。 类 似 地 ， 现 在 也 有 
很 实用 程序 ， 可 以 完成 对 Microsoft Office 系 列 文档 的 转换 。 

另外 一 个 常见 的 文本 转换 问题 ， 是 由 文档 中 文本 的 编码 方式 引起 的 。ASCIIS 编码 是 对 于 
文本 中 单字 节 字 符 编 码 的 通用 标准 方案 。ASCII 编 码 采 用 7 位 或 8 位 来 表示 128 个 或 256 个 字符 。 
然而 ， 有 些 语言 ， 如 汉语 ， 比 英语 含有 更 多 的 字符 ， 并 使 用 很 多 其 他 的 编码 方案 进行 编码 。 
Unicode 是 一 个 通常 使 用 16 位 进行 编码 的 标准 编码 方案 ， 可 以 表示 出 世界 上 绝 大 多 数 语 言 中 使 
用 的 文字 。 实 际 应 用 中 ， 在 对 不 同 语言 的 文档 进一步 深入 处 理 之 前 ， 必 须要 保证 它们 使 用 统 
一 的 编码 方案 进行 了 转换 。 

4. 文档 数据 库 

文档 数据 库 用 于 管理 大 量 的 文档 及 与 这 些 文档 相关 的 结构 化 数据 。 从 效率 的 角度 来 考虑 ， 
文档 内 容 通 常 压缩 之 后 进行 保存 。 结 构 化 数据 包括 文档 的 元 数据 ,以 及 从 文档 中 抽取 出 来 的 
其 他 信息 ， 如 超 链 接 和 销 文 本 (anchor text， 与 超 链接 关联 的 文本 ) 。 关 系数 据 库 系统 
(relational database system) 可 以 用 来 存储 文档 和 元 数据 。 然 而 ， 在 一 些 实际 应 用 中 ， 可 以 使 
用 更 简单 、 更 有 效 的 存储 系统 ， 以 便 实现 对 大 规模 文档 集 的 快速 检索 。 

尽管 原始 文档 在 互联 网 上 可 以 随时 存 取 ， 但 在 企业 数据 库 中 文档 数据 库 是 必需 的 ， 可 以 
为 大 量 搜索 引擎 组 件 提供 对 文档 内 容 的 快速 存 取 。 如 果 搜 索引 擎 必须 从 互联 网 上 获取 原始 文 
档 并 重新 对 文档 进行 处 理 ， 那 么 ， 为 检索 回来 的 文档 生成 摘要 将 花费 很 长 的 时 间 。 


O RSS 实 际 上 是 指 具有 相似 名 称 (和 具有 相同 首 字 母 ) 的 标准 族 ， 例 如 简易 信息 聚合 (Really Simple 
Syndication) 或 者 丰富 站 点 摘要 (Rich Site Summary). 
可 扩展 标记 语言 (eXtensible Markup Language) 。 
超 文本 标记 语言 (HyperText Markup Language), 
美国 信息 交换 标准 码 (American Standard Code for Information Interchange). 
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2.3.2 文本 转换 


1. 解析 器 

解析 组 件 负责 处 理 文档 中 的 文本 词素 (tokens) 序列 ， 以 识别 文档 中 的 结构 化 元 素 ， 如 标 
题 、 图 表 、 超 链接 和 页 首 文字 等 等 。 词 素 切 分 (tokenizing) 是 该 项 处 理 中 的 第 一 个 重要 步 又 。 
有 时 候 ， 词 素 和 词 是 等 同 的 。 文 档 和 查询 中 的 文本 必须 以 同样 的 方式 转换 为 词素 ， 这 样 它 们 
之 闻 可 以 相互 比较 。 对 于 一 个 词素 会 得 到 多 种 结果 ， 这 会 潜在 地 影响 到 检索 ， 因 此 词素 切 分 
是 一 项 很 有 意义 的 任务 。 例 如 ， 词 素 的 简单 定义 是 由 空格 分 开 的 字母 与 数字 构成 的 字符 串 。 
然而 ， 这 并 没有 告诉 我 们 如 何 处 理 那 些 特殊 的 字符 ， 如 大 写字 母 、 连 接 符 和 单 搬 号 。“apple” 
和 “Apple” 是 一 样 的 吗 ? “on-line” 是 一 个 词 还 是 两 个 词 ? “O’Connor” 中 的 单 搬 号 可 以 看 
作 和 所 有 格 是 等 价 的 吗 ? 在 有 些 语 言 中 ， 词 素 切 分 的 问题 更 加 有 趣 ， 如 中 文 ， 中 文 里 没有 像 
英文 那样 明显 的 词 之 间 的 分 隔 符 。 

文档 结构 通常 由 HTML、XML 等 标记 语言 来 指定 。HTML 是 用 来 指定 网 页 结构 的 缺 省 标 
记 语 言 。XML 相 对 来 说 更 加 灵活 ， 是 许多 实际 应 用 系统 中 使 用 的 数据 交换 格式 。 文 档 解析 器 
使 用 标记 语言 中 的 句法 (syntax) 知识 来 识别 文档 的 结构 。 

HETML 和 XML 都 使 用 标签 (tag) 来 定义 文档 的 元 素 (element), Plan: <h2>Search</h2> 
定义 “Search” 是 HTML 文 档 中 的 二 级 标题 。 词 素 切 分 时 ， 标 签 和 其 他 控制 序列 必须 进行 相应 
的 处 理 。 其 他 的 文档 类 型 ， 如 电子 邮件 和 讲稿 ， 由 指定 的 句法 和 方法 来 规范 文档 的 结构 ， 但 
大 部 分 对 这 种 文档 的 处 理 是 在 转换 组 件 中 删除 或 简化 。 

2, 停 用 词 去 除 
”” 停 用 词 去 除 组 件 上 共有 简单 的 任务 ， 从 那些 成 为 索引 项 的 词素 序列 中 删除 常用 词 。 最 常用 
的 词 是 一 些 典 型 的 功能 (function) 词 ， 这 些 词 有 助 于 构成 句子 的 结构 ， 但 对 于 描述 文本 所 涵 
盖 话 题 的 贡献 很 小 ， 如 :“the”、“of”、“to” 和 “for”。 由 于 它们 的 用 处 太 普 遍 ， 去 除 这 些 词 
可 以 相当 大 程度 地 减少 索引 的 大 小 。 排 序 取决 于 所 采用 的 检索 模型 ， 但 停 用 词 去 除 对 于 搜索 
引擎 的 效果 没有 任何 影响 ， 甚 至 可 能 会 有 所 改善 。 尽 管 停 用 词 去 除 有 这 些 法 在 的 优点 ， 但 很 
难 确定 停 用 词 表 (stopword list) 中 应 该 包含 多 少 个 停 用 词 ， 一 些 研究 中 使 用 的 停 用 词 表 包含 
几 百 个 停 用 词 。 使 用 停 用 词 表 的 问题 是 ， 用 户 如 果 提 交 查 询 “to be or not to be” 或 “down 
under”， 搜 索引 擎 不 可 能 返回 搜索 结果 。 为 了 避免 这 样 的 问题 ， 搜 索引 擎 系统 在 处 理 文本 的 
时 候 ， 可 以 使 用 一 个 很 小 的 停 用 词 表 (可 能 仅 含有 一 -个 停 用 词 “the”)， 但 在 对 于 查询 文本 进 
行 处 理 的 时 候 ， 则 用 一 个 较 大 的 停 用 词 表 。 

3. 词 干 提取 

词 干 提取 是 另外 一 个 单词 级 别 的 转换 任务 。 词 干 提取 组 件 (或 词 干 提取 器 ，stemmer) 的 
任务 是 把 同一 个 词 于 (stem) 得 到 的 派生 词 进行 归 类 。 例 如 ， 把 “fish”、“fishes”、“fishing” 
可 以 归 为 一 类 。 通 过 使 用 一 个 给 定 的 词 (如 最 短 的 词 ， 上 面 的 例子 中 是 “fish”) 来 替换 类 中 
的 每 一 个 元 素 ， 可 以 进一步 提高 查询 与 文档 中 词 之 间 匹配 的 可 能 性 。 事 实 上 ， 词 干 提取 对 排 
序 的 效果 通常 只 有 很 小 的 改善 。 类 似 于 停 用 词 去 除 ， 词 干 提取 可 以 针对 所 有 词 进 行 、 谨 慎 地 
针对 少 部 分 词 进行 或 可 以 干脆 不 做 。 针 对 所 有 词 进 行 词 干 提取 可 能 会 导致 搜索 问题 。 例 如 ， 
用 户 提交 查询 “fishing”， 系 统 检索 回来 的 文档 中 包含 的 是 “fish” 的 其 他 词 形 的 词 ， 这 样 的 
检索 结果 不 是 很 恰当 的 。 有 些 搜索 引 歼 应 用 中 ， 谨 慎 地 对 少 部 分 词 进行 了 词 干 提取 ， 如 只 用 
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“s” 来 识别 复数 形式 ， 或 者 在 处 理 文 档 中 的 文本 时 不 进行 词 干 提取 。 词 干 提取 的 工作 集中 在 
对 查询 文本 进行 适当 的 词 的 变形 。 

与 英语 相 比 ， 一 些 语言 ， 如 阿拉 伯 语 ， 具 有 更 复杂 的 词汇 形态 (morphology), il Fiz 
取 必 然 显 得 格外 重要 。 阿 拉 伯 语 中 ， 高 质量 的 词 干 提取 组 件 对 于 搜索 效果 有 着 重大 的 影响 。 
与 之 相 比 ， 其 他 的 语言 如 中 文 ， 词 形 的 变化 很 少 ， 在 这 些 语言 上 进行 词 干 提取 不 会 产生 任何 
效果 。 

4. 超 链 接 的 抽取 和 分 析 

在 对 文档 进行 解析 的 过 程 中 ， 网 页 中 的 超 链接 和 销 文本 可 以 很 容易 地 被 识别 并 抽取 出 来 。 
抽取 意味 着 这 些 信 息 可 以 记录 在 文档 数据 库 中 ， 并 且 可 以 和 文本 内 容 分 开 索 引 。 网 络 搜索 引 
Sh ct (fe A (@PageRank (Brin&Page, 1998) 这 样 的 链接 分 析 (link analysis) 算法 ， 广 泛 地 利 
用 超 链接 和 锚 文 本 这 些 信息 。 链 接 分 析 向 搜索 引擎 提供 一 个 页 面 的 关注 度 ， 并 且 在 一 定 程度 
上 还 向 搜索 引擎 提供 一 个 页 面 的 权威 度 (authority ， 换 名 话说 ， 该 页 面 的 重要 度 ) 。 锁 文本 
(anchor text) 是 网 络 链接 上 可 以 点 击 的 文本 ， 可 以 用 来 提高 链接 所 指向 网 页 的 文本 内 容 对 用 
户 的 吸引 力 。 对 于 有 些 类 型 的 查询 ， 这 两 个 因素 可 以 很 大 程度 地 改善 网 络 搜索 的 效果 ， 

5. 信息 抽取 

信息 抽取 用 于 识别 更 加 复杂 的 索引 项 ， 而 不 是 一 个 单独 的 词 。 这 些 索引 项 可 能 简单 地 是 
一 个 黑体 、 加 粗 的 词 ， 或 者 是 题目 中 的 词 ， 但 通常 需要 更 多 的 附加 计算 。 抽 取 旬 法 特征 ， 如 
名 词 短 语 ， 需 要 某 种 形式 的 句法 分 析 和 词性 标注 (part-of-speech tagging) 。 该 领域 的 研究 专 
注 于 抽取 具有 指定 语义 内 容 的 特征 ， 例 如 ， 命 名 实体 (named entity) 识别 器 ， 能 够 可 靠 地 识 
别 如 和 人 名、 公司 名 称 、 日 期 和 地 名 等 信息 。 

6, 分 类 器 

分 类 器 组 件 为 文档 或 文档 中 的 部 分 内 容 识别 出 与 类 别 相关 的 元 数据 ， 这 覆盖 了 那些 经 党 
单独 描述 的 功能 。 分 类 技术 给 文档 分 配 事 先 定 义 好 的 类 别 标 签 ， 这 些 标签 代表 性 地 表达 话题 
的 类 别 ， 如 “体育 ”、“ 政 治 ” 或 “商业 ”。 其 他 类 型 的 分 类 技术 的 两 个 重要 实例 是 ， 判 别 一 个 
文档 是 否 是 垃圾 文档 ， 以 及 识别 文档 中 的 非 内 容 部 分 ， 如 广告 。 聚 类 技术 用 于 在 没有 事先 定 
义 类 别 标 签 的 基础 上 ， 将 相关 的 文档 率 集 在 一 起 。 在 排序 或 用 户 交 互 过 程 中 ， 这 些 经 过 聚 类 
的 文档 可 以 以 多 种 方式 使 用 。 
2.3.3 索引 的 创建 

1. 文档 统计 

文档 统计 组 件 的 功能 只 是 简单 地 汇总 和 记录 词 、 特 征 及 文档 的 统计 信息 。 排 序 组 件 使 用 
该 信息 来 计算 文档 的 分 值 。 通 常 所 需要 的 数据 包括 索引 项 在 各 文档 中 出 现 次 数 ( 词 及 更 加 复 
杂 的 特征 )、 索 引 项 在 文档 中 出 现 的 位 置 、 索 引 项 在 一 组 文档 (如 所 有 标记 为 “体育 ”的 文档 
或 者 整个 文档 集合 ) 中 出 现 的 次 数 ， 以 及 按照 词素 数量 统计 的 文档 长 度 。 真 正 所 需要 的 数据 
是 由 检索 模型 和 排序 算法 来 决定 的 。 文 档 统 计 结 果 存 储 在 查找 表 (lookup table) 中 ， 查 找 表 
是 设计 用 于 快速 检索 的 一 种 数据 结构 。 

2. 加 权 : 

索引 项 的 权 值 (weight) 反映 了 文档 中 词 的 相对 重要 性 ， 并 且 用 于 为 排序 计算 分 值 。 权 值 
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的 形式 是 由 检索 模型 来 确定 的 。 加 权 组 件 利 用 文档 统计 结果 计算 权 值 ， 并 将 权 值 存储 在 查找 
表 中 。 权 值 的 计算 可 以 是 查询 处 理 的 一 部 分 ， 并 且 一 些 类 型 的 权 值 需 要 关于 查询 的 信息 ， 但 
在 索引 过 程 中 需要 尽 可 能 多 的 计算 ， 这 样 可 以 提高 查询 处 理 的 效率 。 

在 过 去 的 检索 模型 中 ， 最 普遍 使 用 的 一 种 加 权 方 法 称 为 矿 idf。 该 方法 有 很 多 种 变形 ， 但 
是 它们 都 基于 索引 项 出 现在 一 个 文档 中 的 次 数 或 频率 〔 词 频 ， 或 者 如 以 及 索引 项 在 整个 文档 
集合 中 出 现 的 频率 ( 反 文档 频率 ， 或 者 idf) 两 者 的 组 合 。idf 称 为 反 文档 频率 ， 因 为 如 果 一 个 
词素 出 现在 少量 的 文档 中 ， 那 么 该 词 项 被 赋予 较 大 的 权 值 。iadf 典型 的 计算 公式 是 logN/n， 其 
中 NN 是 搜索 引擎 索引 的 文档 数量 总 数 ，n 是 包含 一 个 特定 词 项 的 文档 数量 。 

3. 倒 排 | 

倒 排 (inversion) 组 件 是 索引 处 理 的 核心 组 件 。 它 的 任务 是 将 文本 转换 组 件 传递 过 来 的 
文档 一 词 项 信息 流转 换 为 词 项 一 文档 信息 ， 以 便于 建立 倒 排 索引 。 如 何 高 效 完成 这 项 工作 是 极 
富 挑 战 性 的 ， 不 仅 在 索引 初始 创建 时 需要 处 理 大 量 的 文档 ， 而 且 在 爬虫 或 信息 源 得 到 新 的 文 
档 时 索引 可 以 被 及 时 更 新 。 倒 排 索 引 设计 用 于 快速 的 查询 处 理 ， 并 且 在 一 定 程度 上 依赖 于 所 
采用 的 排序 算法 。 索 引 还 被 压缩 以 便于 进一步 提高 效率 。 

4. 索 引 分 派 

索引 分 派 组 件 将 索引 分 发 给 多 台 计 算 机 ， 很 可 能 是 网 络 中 的 多 个 站 点 。 分 布 式 处 理 是 网 
络 搜索 引擎 效率 的 基础 。 通 过 分 派 文 档 子 集 的 索引 表 (CHAIR, document distribution), # 
引 和 查询 处 理 都 可 以 并 行 (parallel) #47. DIMM TRB ( 词 项 分 派 ，term 
distribution) 还 能 够 支持 查询 的 并 行 处 理 。 复 制 (replication) 是 分 派 的 一 种 形式 ， 索 引 表 或 
部 分 索引 表 存 储 于 多 个 站 点 ， 由 此 查询 处 理 能 够 通过 减少 通信 延迟 进一步 提高 效率 。 对 等 搜 
索 涉 及 较 少 的 分 布 式 组 织 形 式 ， 网 络 中 的 每 一 个 节点 维护 自己 的 索引 表 和 文档 集合 。 
2.3.4 用 户 交 互 


1. 查询 输入 

查询 输入 组 件 为 查询 语言 (query language) 提供 接口 和 解析 器 。 在 大 多 数 网 络 搜索 接口 
中 使 用 的 最 简单 的 查询 语言 仅 有 少量 的 操作 符 (operator) 。 操 作 符 是 查询 语言 中 的 命令 ， 用 
于 指示 文本 需要 进行 特殊 方式 的 处 理 。 通 常 ， 通 过 限制 文档 中 的 文本 与 查询 中 的 文本 如 何 匹 
配 ， 有 助 于 使 用 户 查询 的 意义 更 加 清晰 。 例 如 ， 在 一 个 简单 的 查询 语言 中 使 用 引号 操作 符 ， 
该 操作 符 指示 引号 中 包围 的 词 在 文档 中 作为 一 个 短语 出 现 ， 而 不 是 以 单独 的 没有 任何 联系 的 
词 出 现在 文档 中 。 然 而 ， 典 型 的 网 络 查询 中 仅 包 含 少量 的 关键 词 (keyword) ， 而 没有 操作 符 。 
关键 词 只 是 一 个 简单 的 词 ， 对 于 指定 查询 的 话题 来 说 是 很 重要 的 。 因 为 大 多 数 网 络 搜索 引擎 
使 用 的 排序 算法 是 根据 关键 词 查询 设计 的 ， 对 于 那些 含有 较 低 比例 关键 词 的 较 长 的 查询 ， 效 
果 并 不 好 。 例 如 ， 对 于 两 个 查询 “搜索 引擎 ”和 “搜索 引擎 中 使 用 的 经 典 技术 和 数据 结构 是 
什么 ” ， 在 网 络 搜索 引 警 中， 前 一 个 查询 会 比 后 一 个 查询 得 到 更 好 的 结果 。 搜 索引 擎 设计 中 
的 一 个 挑战 性 的 任务 是 ， 对 于 一 系列 的 查询 给 出 好 的 结果 ， 对 于 更 多 规范 的 查询 ， 给 出 更 好 
的 结果 。 

对 于 那些 希望 对 搜索 结果 有 更 多 的 控制 ， 或 者 对 于 使 用 搜索 引擎 的 应 用 系统 来 说 ， 可 以 
使 用 更 加 复杂 的 查询 语言 。 正 如 SQL 查询 语言 并 不 是 为 数据 库 应 用 系统 的 用 户 (终端 用 户 ， 
the end user) 设计 的 ， 同 样 ， 这 些 查询 语言 也 不 是 为 搜索 应 用 的 终端 用 户 设计 的 。 布 尔 型 
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(Boolean) 查询 语言 在 信息 检索 中 有 着 较 长 的 历史 。 这 种 查询 语言 中 使 用 的 操作 符 包括 AND, 
OR 和 NOT， 以 及 一 些 临近 (proximity) 操作 符 ， 用 于 指示 词 必须 要 在 规定 的 距离 内 一 起 出 现 
(通常 根据 字数 统计 ) 。 另 外 一 些 查 询 语言 包括 这 些 操作 符 和 其 他 概率 模型 中 的 操作 符 ， 这 些 
操作 符 的 设计 旨 在 认可 与 文档 结构 和 内 容 相 关联 的 特征 规范 。 

2. 查询 转换 

查询 转换 组 件 包括 一 系列 的 技术 ， 这 些 技术 用 于 在 生成 排 好 序 的 文档 之 前 和 之 后 改善 初 
始 查询 。 最 简单 的 处 理 涉 及 一 些 对 文档 进行 文本 转换 的 技术 。 在 查询 文本 上 ， 需 要 进行 词素 
切 分 、 停 用 词 去 除 和 词 干 提取 这 些 工作 ， 以 生成 与 文档 词 项 具有 可 比 性 的 索引 词 。 

拼写 检查 (spell checking) 和 查询 建议 (query suggestion) 是 查询 转换 中 的 技术 ， 生 成 
与 用 户 初始 查询 相似 的 输出 。 在 这 两 种 情况 下 ， 向 用 户 提 供 初始 查询 的 一 些 候选 查询 ， 这 些 
候选 查询 可 能 纠正 了 拼写 错误 或 者 是 对 用 户 所 需 信 息 的 更 规范 的 描述 。 这 些 技术 通常 会 导致 
为 网 络 应 用 搜集 大 量 的 查询 日 志 (query log)。 查 询 扩展 (query expansion) 技术 是 对 查询 进 
行 推荐 或 者 增加 一 些 额外 的 词 项 ， 但 通常 都 是 在 对 文档 中 词 项 的 出 现 情况 分 析 的 基础 上 进行 
的 。 该 分 析 通 常 是 用 不 同 的 信息 源 ， 如 整个 文档 集合 、 检 索 到 的 文档 或 者 用 户 计算 机 上 的 文 
档 。 相 关 反 馈 (relevance feedback) 是 一 种 查询 扩展 技术 ; 利用 用 户 认为 相关 的 文档 中 出 现 
的 词 项 对 查询 进行 扩展 。 

3. 结果 输出 

结果 输出 组 件 负责 对 相关 组 件 得 到 的 排 好 序 的 文档 的 结果 进行 显示 。 可 能 包含 的 任务 有 
生成 网 页 摘要 (snippets) 来 对 检索 到 的 文档 内 容 进行 概括 ;强调 (highlighting) 文档 中 重要 
的 词 和 段落 ， 对 输出 结果 聚 类 以 找到 文档 相关 的 类 别 ， 以 及 将 相应 的 广告 增加 到 结果 显示 中 。 
在 涉及 多 种 语言 的 应 用 系统 中 ， 结 果 可 能 会 被 翻译 成 同一 种 的 语言 。 


2.3.5 排序 


1. 打分 机 制 

打分 组 件 也 称 为 查询 处 理 (query processing) ， 在 检索 模型 的 基础 上 ， 使 用 排序 算法 来 计 
算 文档 的 分 值 。 一 些 搜索 引擎 的 设计 者 会 明确 说 明 系 统 所 采用 的 检索 模型 。 而 另外 一 些 搜索 
引擎 的 设计 者 ， 只 讨论 排序 算法 〈 展 示 算 法 的 所 有 细节 )， 所 有 的 排序 算法 都 是 隐 含 地 建立 在 
某 种 检索 模型 基础 上 的 。 排 序 算法 中 使 用 的 特征 和 权 值 ， 可 能 是 赁 经 验 (empirically ， 通 过 测 
试 和 评估 ) 得 到 的 ， 但 必须 与 话题 和 用 户 相 关 ， 否 则 搜索 引擎 将 不 会 工作 。 

研究 者 们 提出 了 很 多 种 检索 模型 及 导出 排序 算法 的 方法 ， 通 过 这 些 模型 计算 文档 分 值 ， 
基本 的 形式 如 下 

Zasad, 

公式 用 来 计算 词汇 表 中 所 有 词 项 的 总 和 ，4 是 查询 中 第 ;个 词 项 的 权 值 ，4 是 文档 词 项 的 权 
值 。 启 项 的 权 值 依赖 于 所 使 用 的 特定 的 检索 模型 ， 通 常 类 似 于 tt.idf 权 值 计 算 方 法 。 第 7 章 中 进 
一 步 详细 讨论 基于 BM25 和 查询 似 然 度 (query likelihood) 检索 模型 的 排序 算法 。 

另外， 必须 快速 地 计算 并 比较 得 到 文档 的 分 值 ， 以 便 确 定 文档 的 排序 ， 并 将 其 传递 给 结 
果 输 出 组 件 ， 这 就 是 性 能 优化 组 件 的 任务 。 
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2. 性 能 优化 

性 能 优化 涉及 排序 算法 和 相关 联 的 索引 表 的 设计 ， 以 降低 系统 的 响应 时 间 ， 提 高 查询 吞 
叶 量 。 对 于 一 个 给 定 的 文档 打分 机 制 的 形式 ， 有 很 多 种 方式 去 计算 这 些 分 值 ， 并 且 生 成 排 好 
序 的 文档 输出 结果 。 例 如 ， 分 值 可 以 通过 对 某 个 查询 词 项 存 取 索 引 表 进行 计算 ， 计 算 读 词 项 
对 文档 分 值 的 贡献 度 ， 将 该 贡献 度 的 值 添加 到 一 个 分 值 累 加 器 中 ， 然 后 存 取 下 一 个 索引 表 。 
该 方法 称 为 term-at-a-time 分 值 计算 方法 。 另 外 一 种 方法 是 ， 对 于 所 有 的 查询 词 项 同时 存 取 所 
有 的 索引 表 ， 通 过 在 索引 表 中 指针 的 移动 来 找到 出 现 这 些 词 项 的 某 一 个 文档 ， 以 此 来 计算 分 
值 。 在 这 种 document-at-a-time 分 值 计 算 方法 中 ， 可 以 快速 地 得 到 最 终 的 文档 分 值 ， 而 不 是 每 
次 累加 一 个 词 项 的 值 。 对 这 两 种 方法 可 以 进一步 的 优化 ， 以 便 大 幅度 地 降低 计算 排序 靠 前 的 
文档 所 需要 的 时 间 。 安 全 的 (safe) 优化 方式 ， 能 保证 计算 得 到 的 分 值 和 没有 经 过 优化 的 分 值 
相同 。 不 安全 的 (unsafe) 优化 方式 ， 有 的 时 候 计算 速度 更 快 ， 但 不 能 保证 结果 和 未 经 优化 的 
结果 相同 。 因 此 ， 谨 慎 地 评价 优化 方式 的 影响 是 很 重要 的 。 

3. 分 布 式 

索引 是 以 分 布 式 的 形式 给 出 的 ， 那 么 排序 也 可 以 采用 分 布 式 。 查 询 代 理 (query broker) 
描述 了 如 何在 网 络 中 将 多 个 用 户 查 询 分 派 给 不 同 的 处 理 器 ， 并 且 负 责 将 各 处 理 器 返回 的 结果 
整合 到 一 起 ， 形 成 给 定 查 询 的 排 好 序 的 结果 列表 。 代 理 的 操作 过 程 与 索引 的 分 派 形式 有 关 。 
缓存 (caching) 是 另外 一 种 分 布 式 的 形式 ， 索引 或 者 前 一 个 查询 得 到 的 排 好 序 的 文档 结果 列 
表 ， 都 可 以 保留 在 本 地 内 存 中 。 如 果 大 量 的 用 户 都 提交 相同 的 查询 或 索引 项 ， 那 么 本 地 内 存 
中 保留 的 这 些 信息 可 以 被 重复 使 用 ， 从 而 节省 很 多 时 间 。 
2.3.6 评价 

1. 日 志 

对 于 调整 和 改善 搜索 引擎 系统 的 效果 和 效率 来 讲 ， 用 户 查询 及 用 户 与 搜索 引擎 交互 的 日 
志 是 很 有 价值 的 信息 源 。 用 户 的 查询 日 志 可 以 用 于 拼写 检查 、 相 关 查 询 词 推荐 、 查 询 缓 存 及 
其 他 任务 ， 例 如 为 找到 与 用 户 搜索 内 容 相关 的 广告 提供 帮助 。 搜 索引 擎 返回 的 结果 列表 中 的 
文档 如 果 被 用 户 点 击 浏览 ， 那 么 该 文档 很 可 能 是 与 用 户 查询 相关 的 文档 。 这 意味 着 用 户 对 文 
这 的 点 击 日 志 (点 击 数据 ) 和 驻 留 时 间 (dwell ime, HARE 篇 文档 所 花费 的 时 间 ) 等 信 
息 可 以 用 来 评价 和 训练 排序 算法 。 

2. 排序 分 析 

对 于 大 量 的 查询- 文档 ) 对 ， 给 定 日 志 数 据 和 显示 的 相关 判定 ， 可 以 对 排序 算法 的 效果 
进行 评估 ， 并 与 候选 的 算法 进行 比较 。 这 是 改善 搜索 引擎 性 能 的 关键 部 分 ， 并 且 可 以 为 应 用 
系统 选择 合适 的 参数 值 。 可 以 采用 多 样 化 的 评价 手段 ， 并 可 以 选择 这 些 方法 来 评价 应 用 系统 
的 输出 结果 。 对 输出 结果 的 评价 侧重 于 排序 靠 前 的 文档 的 质量 ， 而 不 是 整个 结果 列表 的 文档 
质量 。 

3. 性 能 分 析 

性 能 分 析 组 件 专 注 于 监测 和 改善 系统 的 整体 性 能 ， 排 序 分 析 组 件 以 同样 的 方式 监测 系统 
的 效果 。 可 以 采用 多 种 多 样 的 评价 方法 来 进行 系统 的 性 能 分 析 ， 如 响应 时 间 、 吞 吐 量 ， 但 是 
评价 方法 的 使 用 还 依赖 于 具体 的 应 用 。 例 如 ， 对 于 一 个 分 布 式 搜索 引擎 系统 来 说 ， 除 了 人 上述 
的 评价 方法 之 外 ， 还 要 检测 网 络 的 使 用 情况 和 效率 。 模 拟 是 与 性 能 分 析 等 效 的 方法 ， 真 实 的 
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网 络 、 处 理 器 、 存 储 设备 及 数据 ， 都 可 以 使 用 参数 可 调 的 数学 模型 来 代替 。 
2.4 搜索 引擎 是 如 何 工作 的 


现在 了 解 了 一 个 搜索 引擎 中 各 组 件 的 名 称 和 它 的 功能 。 但 是 ， 对 于 这 些 组 件 在 实际 中 如 
何 执行 它们 的 功能 ， 没 有 进行 更 多 的 痢 述 。 这 是 本 书 的 后 续 章 节 中 将 讨论 的 内 容 。 在 每 一 章 
中 ， 都 深入 阐述 了 一 个 或 多 个 组 件 是 如 何 工 作 的 。 如 果 在 阅读 了 相应 的 章节 之 后 ， 你 仍然 不 
理解 所 描述 的 组 件 ， 就 可 以 阅读 每 章 后 面 给 出 的 参考 文献 ， 或 者 学 习 Galago 的 代码 。Galago 
的 代码 是 本 书 中 的 想法 的 具体 实现 。 
参考 文献 和 深入 阅读 

关于 组 件 描述 中 提 到 的 技术 和 模型 的 详细 参考 文献 ， 会 在 相应 的 章节 中 给 出 。 关 于 搜索 
引擎 架构 的 参考 文献 为 数 不 多 。 在 数据 库 教 科 书 中 ，Elmasri 和 Navathe (2006) 描述 了 数据 库 
的 系统 架构 和 相关 的 查询 语言 ， 将 它们 和 本 章 中 讨论 的 搜索 引擎 系统 架构 进行 比较 是 很 有 意 
思 的 。 它 们 在 高 层次 的 组 件 是 有 些 相 似 的 ， 然 而 数据 库 系统 着 重 于 结构 化 的 数据 和 精确 匹配 ， 
而 不 像 搜 索引 擎 ， 重 点 在 于 处 理 文本 和 排序 算法 。 因 此 ， 大 多 数 的 组 件 是 不 同 的 。 

Brin&Page (1998) 是 一 篇 经 典 的 关于 搜索 引擎 架构 的 研究 论文 。Callan 等 (1992) 发 表 
了 另外 一 篇 关于 早期 的 通用 搜索 引擎 (Inquery) 的 概述 。Hatcher 和 Gospodnetic (2004) 的 论 
文中 全 面 描述 了 Lucene 的 架构 和 组 件 。 


练习 


2.1 在 Galago 的 代码 中 ， 找 出 一 些 本 章 描述 的 搜索 引擎 组 件 的 实例 。 

2.2 文档 过 滤 是 一 种 应 用 系统 ， 该 系统 中 存储 了 大 量 的 用 户 查 询 和 用 户 需求 文档 ， 将 来 自信 
息 源 的 每 一 个 文档 与 这 些 用 户 需 求 文档 进行 比较 。 那 些 与 用 户 和 需求 文档 足够 相似 的 文档 
通过 电子 邮件 或 其 他 方式 推送 给 该 用 户 。 请 对 过 滤 引 擎 的 架构 进行 描述 ， 并 阐述 它 和 搜 
索引 擎 的 不 同 之 处 。 

23 如 果 用 户 点 击 了 搜索 引擎 返回 的 结果 列表 中 的 一 个 特定 的 文档 告诉 搜索 引擎 去 检索 与 
用 户 点 击 的 文档 相似 的 那些 文档 ， 那 么 这 种 查询 称 为 more-like-this 查 询 。 为 了 回答 这 种 
类 型 的 用 户 查 询 ， 需 要 使 用 哪些 低层 次 的 组 件 ? 这 些 组 件 的 使 用 顺序 如 何 ? 


第 3 章 信息 采集 和 信息 源 


“你 不 要 再 干预 我 的 事情 了 。” 





Doc Ock, (#3 4k2) 
3.1 确定 搜索 的 内 容 


本 书 是 关于 构建 搜索 引擎 系统 的 详细 描述 ， 从 排序 使 用 的 算法 到 查询 处 理 的 方法 。 虽 然 
我 们 重点 关注 的 是 那些 使 搜索 引擎 能 够 工作 的 技术 ， 而 且 更 好 的 技术 能 够 使 搜索 引擎 具有 更 
好 的 性 能 ， 但 是 文档 集合 中 的 信息 才 使 搜索 引擎 变 得 更 加 有 用 ， 换 言 之 ， 如 果 搜 索引 擎 中 没 
有 存储 合适 的 文档， 就 没有 一 种 搜索 技术 能 够 找到 相关 的 信息 。 

本 节 的 标题 隐 含 地 回答 了 这 样 一 个 问题 ,，“ 我 们 想 要 搜索 什么 ?”。 简 单 的 答案 是 : 一 切 
你 所 能 搜索 的 信息 。 虽 然 一 些 最 好 的 文档 回答 了 更 多 的 问题 ， 但 每 一 个 文档 至 少 回答 了 一 个 
问题 (Bilan, “Now where was that document again?”)。 每 次 搜索 引擎 增加 不 同 的 文档 ， 它 能 
够 回答 的 问题 数目 也 随 之 增加 。 另 一 方面 ， 为 了 找到 最 好 的 结果 显示 给 用 户 添加 一 些 低 质量 
的 文档 会 增加 排序 处 理 的 负担 。 然 而 ， 对 于 网 络 搜 索引 擎 来 说 ， 即 使 系统 存储 着 几 十 亿 没 太 
大 用 处 的 低 质量 文档 ， 也 能 显示 出 搜索 引擎 的 成 功 之 处 。 

即便 是 有 用 的 文档 ， 经 过 一 段 时 间 之 后 也 会 变 得 用 处 不 大 ， 尤 其 是 新 闻 和 财经 信息 。 例 
如 ， 大 部 分 人 想 要 知道 的 是 当天 股票 市 场 的 报道 ， 只 有 少数 的 人 会 关心 昨天 的 市 场 发 生 了 什 
么 。 遗 憾 的 是 ， 我 们 经 常会 在 搜索 结果 列表 中 发 现 过 期 的 网 页 和 链接 。 搜 索引 擎 除了 收集 那 
些 旧 的 资料 外 ， 还 含有 尽 可 能 多 的 近期 信息 ， 这 时 搜索 引擎 的 效果 是 最 好 的 。 

本 章 介绍 了 找到 要 搜索 的 文档 的 相关 技术 ， 无 论 这 些 文档 是 在 互联 网 上 、 文 件 服务 器 上 、 
计算 机 的 硬盘 上 或 者 是 在 电子 邮件 程序 中 。 我 们 将 讨论 存储 文档 以 及 如 何 保持 这 些 文档 是 最 
新 的 策略 。 接 下 来 ， 将 讨论 如 何 从 文件 中 获取 数据 ， 以 及 浏览 中 存在 的 问题 ， 如 字符 编码 、 
过 时 的 文件 格式 、 重 复 文 档 以 及 文本 噪声 。 通 过 本 章 的 学 习 ， 你 将 能 够 牢固 地 掌握 如 何 为 搜 
索引 擎 准备 文档 数据 ， 为 建立 索引 做 准备 。 


3.2 We fa SIR 


为 了 建立 一 个 能 够 对 网 页 进行 搜索 的 搜索 引擎 系统 ， 首 先 需 要 对 你 希望 搜索 的 网 页 有 一 
个 备份 。 与 后 面 我 们 将 要 考虑 的 一 些 其 他 类 型 的 文本 资源 不 同 ， 网 页 很 容易 进行 备份 ， 因 为 
通过 互联 网 用 浏览 器 可 以 将 网 页 抓 取 到 本 地 。 这 解决 了 获取 要 搜索 的 信息 的 一 个 主要 问题 : 
如 何 将 数据 从 它 存储 的 地 方 取出 来 交 给 搜索 引擎 。 

自动 地 发 现 并 下 载 网 页 称 为 不 取 (crawling), PRAM A MAIR HS (web 
crawler) 。 对 于 网 页 的 采集 ， 存 在 很 多 特殊 的 问题 。 最 大 的 问题 是 互联 网 的 规模 非常 庞大 ， 互 
联网 上 至 少 有 上 百 亿 的 网 页 。 上 名 话 中 提 到 的 “至 少 ”， 是 因为 没有 人 能 够 确定 互联 网 上 网 页 





O RAHE spidering, MART RRA MRR (spider), 
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的 具体 数目 。 即 便 可 以 精确 地 计算 当天 存在 的 网 页 数量 ， 但 随 着 网 页 不 断 地 产生 ， 这 个 数字 
很 快 就 会 失效 。 当 一 个 用 户 每 次 增加 一 个 新 的 博客 帖子 或 者 上 传 一 个 照片 的 时 候 ， 就 创建 了 
不 同 的 网 页 。 对 于 大 多 数 的 组 织 来 说 ， 即 便 是 互联 网 上 的 大 部 分 网 页 ， 也 没有 足够 的 存储 空 
间 来 存储 。 但 对 于 拥有 大 量 资源 的 网 络 搜索 提供 者 来 讲 ， 必 须 能 够 不 断 地 下 载 新 的 内 容 ， 以 
保持 文档 集合 的 内 容 是 最 新 的 。 

另 一 个 问题 是 ， 互 联网 上 的 网 页 通常 不 受 搜索 引擎 数据 库 创建 者 的 控制 。 即 便 知道 想 要 
从 www.company.com 捷 由 所 有 的 网 页 ， 也 没有 简单 的 方法 能 够 知道 这 个 站 点 有 多 少 个 页 面 。 
该 站 点 的 拥有 者 可 能 会 不 希望 你 拷贝 其 中 的 一 些 数据 ， 而 且 如 果 你 很 快 或 者 很 频繁 地 拷贝 站 
点 上 的 数据 ， 就 会 引起 站 点 拥有 者 的 愤怒 。 有 些 你 想 要 拷贝 的 数据 可 能 只 能 通过 在 表单 中 填 
写 需 求 才能 获取 ， 这 很 难 实现 自动 处 理 。 
3.2.1 抓 取 网 页 


互联 网 上 的 每 一 个 网 页 都 有 自己 唯一 的 统一 资源 定位 器 (uniform resource locator) ， 或 
URL。 用 于 描述 网 页 的 URL 由 三 部 分 组 成 : 协议 方案 、 主 机 名 、 资 源 名 (如 图 3-1 所 示 )。 网 
页 存储 在 网 络 服务 器 上 ， 使 用 超 文本 传输 协议 (Hypertext Transfer Protocol, HTTP) 来 和 客户 
端 软件 交换 信息 。 因 此 ， 互 联网 上 使 用 的 绝 大 多 数 URL 都 以 http 开 始 ， 指 出 该 URL 表 示 的 资源 
可 以 使 用 HTTP 协 议 进 行 抓 取 。 接 下 来 的 主机 名 (hostname) ， 是 保存 该 网 页 的 网 络 服务 器 的 
计算 机 名 。 图 中 ， 计 算 机 的 名 字 是 www.cs.umass.edu， 是 马萨诸塞 大 学 计算 机 系 的 一 台 计 算 
机 。 该 URL 指 向 这 人 台 计 算 机 上 的 一 个 页 面 /csinfo/people.html。 


http:/ /www.cs.umass.edu/csinfo/people.html 


http  wwwesumass.edu /csinfo/people.html 
协议 方案 主机 名 资源 


图 3-1 统一 资源 定位 器 (URL) 切 分 为 三 个 部 分 


网 络 浏览 器 和 网 络 仆 虫 是 两 种 不 辣 的 网 络 客 户 端 ， 但 都 以 相同 的 方式 来 获取 网 页 。 首 先 ， 
客户 端 程序 连接 到 一 个 域名 系统 (domain name system, DNS) 服务 器 上 。DNS 服 务 器 将 主机 
名 转换 成 IP (internet protocol) 地 址 。 典 型 的 IP 地 址 为 32 位 二 进 制 数 ， 但 现在 有 些 网 络 使 用 
128 位 的 IP 地 址 。 接 下 来 ， 客 户 端 程序 试 着 连接 具有 该 下 地 址 的 服务 器 。 服 务 器 上 可 能 有 多 个 
不 同 程序 在 运行 ， 每 个 程序 都 在 监听 网 络 以 发 现 新 的 连接 ， 各 程序 监听 不 同 的 端口 (port) 。 
端口 是 一 个 16 位 的 数字 ， 用 来 辨识 不 同 的 服务 。 除 非 在 URL 中 指定 了 其 他 的 端口 ， 否 则 对 网 
页 的 请 求 通常 都 发 送 到 80 端 口 。 

一 旦 建立 了 连接 ， 客 户 端 程序 发 送 一 个 HTTP 请 求 给 网 络 服务 器 ， 以 请 求 一 个 页 面 。 最 常 
见 的 HTTP 请 求 是 GET 请 求 ， 例 如 : 

GET /csinfo/people. html HTTP/1. O 

该 命令 请 求 服务 器 使 用 HTTP 协 议 规范 的 1.0 版 本 ， 将 页 面 /csinfo/people.html 返回 给 客户 
端 。 服 务 器 在 发 送 一 个 简短 的 头 部 信息 之 后 ， 将 该 文件 的 内 容 返 回 给 客户 端 。 如 果 客 户 端 需 
要 更 多 的 页 面 ， 可 以 发 送 其 他 的 请 求 ， 否 则 ， 客 户 端 关 闭 该 连接 。 

客户 端 程序 也 可 以 通过 使 用 POST 请 求 获取 网 页 。 除 了 POST 请 求 可 以 向 服务 器 发 送 额 外 
的 请 求 信 息 之 外 ， 它 和 GET 请 求 类 似 。 习 惯 上 ，GET 请 求 用 于 抓 取 已 经 在 服务 器 上 存在 的 数 
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据 ， 而 POST 请 求 用 于 告诉 服务 器 一 些 事情 。 当 你 点 击 一 个 按钮 购买 商品 或 者 对 网 页 进行 编辑 
时 ， 就 可 以 使 用 POST 请 求 。 如 果 运 行 一 个 网 络 肘 虫 ， 这 个 惯例 是 很 有 用 的 。 由 于 只 是 发 送 了 
. 一 个 GET 请 求 ， 就 有 助 于 确保 网 络 仆 虫 不 会 在 无 意 间 去 购买 一 件 商品 。 


/index.html 


www.cs.umass.edu 


/index.html 




















/index.html 


/index.html 
rr 
/2006/09/story.html 


/2003/04/story.html 







| /2005/storyhtiml | 











/about.html 





图 3-2 惟 取 网 络 。 网 络 聆 虫 连接 网 络 服务 器 来 找到 相应 的 页 面 。 
页 面 可 能 指向 同一 个 服务 器 或 不 同 服务 器 上 的 其 他 页 面 


3.2.2 WARA | 

图 3-2 从 一 个 简单 的 网 络 仆 虫 的 角度 ， 给 出 了 网 络 信 息 采 集 的 图 示 。 网 络 息 虫 有 两 个 任务 : 
下 载 页 面 和 发 现 URL。 

网 络 扑 虫 的 工作 从 一 个 种 子 (seed) 集合 开始 ， 种 子 集合 是 作为 参数 传递 给 网 络 仆 虫 的 
一 个 URL 的 和 集合。 这些 种 子 被 添加 到 URL 请 求 队列 中 。 网 络 候 虫 从 请 求 队列 中 取出 URL 地 址 ， 
开始 抓 取 页 面 的 任务 。 一 旦 下 载 了 一 个 页 面 ， 就 对 该 页 面 进 行 解析 ， 找 到 链接 标签 ， 其 中 可 
能 会 含有 用 于 抓 取 的 URL 地 址 。 如 果 网 络 仆 虫 发 现 一 个 以 前 没有 遇 到 过 的 URL 地 址 ， 则 将 该 
地 址 添加 到 请 求 队列 或 frontier 中 去 。frontier 可 以 是 一 个 标准 的 队列 ,或 者 是 经 过 排序 的 队列 ， 
”以 便 使 重要 的 页 面 置 于 队列 的 前 面 。 这 个 过 程 重复 进行 ， 直 到 网 络 息 虫 用 尽 存储 页 面 的 磁盘 
空间 或 者 请 求 队列 为 空 。 

AFR A Ss RE AE TBR, BRAK. TUS, WRK E 
都 消耗 在 等 待 响应 上 : 等 待 DNS 服 务 器 的 响应 ， 然 后 等 待 与 服务 器 的 连接 被 确认 ， 接 下 来 还 
要 等 待 从 服务 器 发 送 的 网 页 数据 。 在 等 待 的 过 程 中 ， 网 络 疏 虫 所 使 用 的 机 器 的 CPU 是 处 于 空 
闲 状态 的 ， 而 且 这 时 也 没有 利用 到 网 络 连 接 。 为 了 提升 效率 ， 网 络 爬 虫 使 用 多 个 线程 ， 一 次 
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抓 取 几 百 个 网 页 。 

一 次 抓 取 几 百 个 网 页 ， 对 于 使 用 网 络 仆 虫 的 人 来 说 是 一 件 好 事 ， 但 对 于 网 络 服务 器 的 所 
有 者 来 说 却 未 必 是 件 好事 。 设 想 一 下 ， 请 求 队列 在 实际 中 是 如 何 工作 的 。 当 抓 取 到 一 个 页 面 
后 ， 比 如 www.company.com， 该 页 面 被 解析 ， 页 面 中 所 有 的 链接 都 添加 到 请 求 队列 中 。 接 下 
来 ， 网 络 恨 虫 会 试图 一 次 抓 取 所 有 这 些 链接 指向 的 页 面 。 假 如 该 服务 器 www.company.com 的 
性 能 并 不 是 很 强大 ， 它 将 花费 所 有 的 时 间 来 处 理 网 络 息 虫 的 请 求 ， 而 不 会 去 处 理 真 实用 户 的 
请 求 。 网 络 爬 虫 的 这 种 行为 会 导致 网 络 服务 器 管理 员 非 常生 气 。 

ATERRAR, MANERE TILAK (politeness policy), LAHI ERAR 
会 在 特定 的 网 络 服务 器 上 一 次 抓 取 多 个 页 面 。 另 外 ， 在 同一 个 网 络 服 务 器 上 的 两 次 请 求 之 间 ， 
网 络 仆 虫 至 少 等 待 几 秒 钟 ， 有 时 也 可 以 是 几 分 钟 的 时 间 。 这 样 就 能 够 使 网 络 服务 器 将 大 多 数 
的 时 间 花 费 在 处 理 真 实用 户 的 请 求 上 。 为 了 支持 该 策略 ， 请 求 队列 在 腔 辑 上 为 每 个 网 络 服 务 
器 划分 出 一 个 单独 的 队列 。 在 任何 时 间 ， 绝 大 多 数 这 些 单独 的 队列 都 会 被 禁止 进行 候 取 ， 因 
为 网 络 息 虫 已 经 在 近期 从 相应 的 服务 器 上 抓 取 了 页 面 。 对 于 那些 在 礼 狐 策 略 规 定 的 时 间 窗 口 
内 未 被 存 取 的 队列 ， 网 络 仆 虫 可 以 自由 地 读 取 页 面 请 求 。 

当 使 用 礼貌 策略 的 时 间 窗 口 时 ， 请 求 队列 必 
须 很 大 ， 以 获得 好 的 性 能 。 假 设 网 络 疏 虫 可 以 在 
每 秒 内 抓 取 100 个 页 面 ， 它 的 礼貌 策略 规定 每 30 秒 
内 从 特定 的 网 络 服务 器 上 抓 取 的 页 面 数 目 不 能 多 
于 1 个 。 为 了 得 到 较 高 的 吞吐 量 ， 该 圆 络 爬 虫 需要 
在 请 求 队列 中 有 至 少 来 自 3000 个 不 同 网 络 服务 器 
的 URL。 有 些 URL 会 来 自 同一 台 服 务 器 ， 网 络 扑 
虫 达到 吞吐 量 峰 值 之 前 ， 请 求 队列 中 需要 含有 几 
万 个 URL。 图 3-3 robots txt 文件 样 例 

有 些 网 络 服务 器 管理 员 反 对 对 他 们 的 数据 进 
行 任何 拷贝 ， 即 使 对 该 站 点 的 信息 采集 速度 很 慢 ， 也 会 着 把 他 们 。 这 时 候 ， 管 理 员 可 以 在 他 
们 的 网 络 服务 器 上 保存 一 个 称 为 robots .txt 的 文件 。 图 3-3 给 出 了 roboets.txt 文 件 的 样 例 。 该 文件 
由 User-agent 开始 ， 由 多 个 命令 块 组 成 。User-agent 这 一 行 标识 一 个 网 络 朴 虫 或 者 一 组 网 络 有 
虫 受 以 下 的 规则 约束 。 这 一 行 的 后 面 是 Allow 和 
Disallow 规 则 ， 规 定 哪些 资源 允许 该 候 虫 进行 存 取 。 
图 中 ， 第 一 个 命令 块 指出 除了 以 /other/public/ 开 始 
MASS, AAA I RAR RA. A 
/private/, /confidential/ 或 /other/ 开始 的 目录 。 第 
二 个 命令 块 指出 ， 名 为 FavoredCrawler 的 网 络 瓜 虫 
拥有 自己 的 规则 集 : 允许 它 复制 服务 器 上 所 有 的 内 
容 。 

样 例 中 的 最 后 一 个 命令 块 是 一 个 可 选 的 
Sitemap :指令 ， 将 在 本 节 的 后 面 进行 讨论 。 

图 3-4 给 出 了 一 个 信息 采集 线程 的 实现 ， 使 用 了 
我 们 已 了 解 的 网 络 仆 虫 构件 。 假 设 frontier 已 经 用 一 图 3-4 信息 采集 线程 的 实现 





User-agent: * 

Disallow. /private/ 
Disallow /confidential/ 
Disallow: /other/ 
Allow: /other/public/ 







User-agent: FavoredCrawler 
Disallow: 


Sitemap: http: //mysite. com/sitemap. xml. gz 





procedure CRAWLERTHREAD(frontier) 
while not frontier.done() do 
website — frontier.nextSite() 
url — website.nextURL() 
if website.permitsCrawl(url) then 
text +— retrieve URL(url) 
storeDocument(url, text) 
for each url in parse(text) do 
frontier.addURL (url) 
end for 
end if 
frontier.releaseSite(website) 
end while 
end procedure 
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些 种 子 URL 进 行 了 初始 化 。 信 息 采 和 集 线 程 首先 从 frontier 中 获取 一 个 网 站 。 然 后 ， 网 络 爬 虫 从 该 
网 站 队列 中 识别 出 下 一 个 URL 地 址 。 在 permitsCraw1l 中 ， 网 络 疏 虫 根据 该 网 站 的 robots.txt 文 件 
检查 这 个 URL 是 否 允 许 进行 信息 采集 。 如 果 人 允许 ， 网 络 仆 虫 使 用 retriveURL 来 抓 取 文档 的 内 
容 。 这 是 该 循环 中 最 耗 时 的 部 分 ， 疏 虫 线程 在 此 处 会 阻塞 几 秒 钟 。 一 旦 将 文本 抓 取 回 来 ， 
storeDocument 就 将 文档 中 的 文本 存储 到 文档 数据 库 中 (在 本 章 后 面 进行 讨论 )。 对 文本 的 内 容 
进行 分 析 ， 会 发 现 其 他 的 URL， 将 新 发 现 的 URL 添 加 到 frontier 中 ， 由 frontier 负 责 将 它们 添加 
到 相应 的 网 站 队列 中 去 。 所 有 这 些 工 作 做 完 之 后 ，website 对 象 被 返回 给 frontier， 在 合理 的 时 ~ 
间 内 不 将 该 站 点 分 配给 其 他 的 线程 ， 以 此 来 实施 它 的 礼貌 策略 。 在 实际 的 网 络 仆 虫 中 ， 计 时 器 
在 文档 被 抓 取 回来 之 后 会 立即 启动 ， 因 为 文本 分 析 和 存储 文档 会 花费 很 长 的 时 间 。 


3.2.3 时 新 性 


互联 网 上 的 网 页 在 不 断 地 增加 、 删 除 和 修改 。 为 了 准确 地 查看 网 页 中 的 内 容 ， 网 络 仆 虫 
必须 不 断 地 对 它 已 经 有 息 取 过 的 网 页 进行 访问 ， 看 它们 是 否 发 生 了 变化 ， 以 保持 文档 集合 的 时 
新 性 (freshness)。 陈 旧 的 备份 是 与 时 新 的 备份 相反 的 ， 意 味 着 这 个 备份 已 经 不 再 能 够 反映 真 
实 的 网 页 内 容 了 。 

客户 请 求 ， HEAD /csinfo/people. html HTTP/1.1 
Host: www. cs. umass. edu 


HTTP/1.1 200 OK 

Date: Thu, @3 Apr 2008 05:17:54 GMT 

Server: Apache/2.@.52 (CentOS) 

Last-Modified: Fri, 84 Jan 2008 15:28:39 GMT 
服务 器 响应 ; ETag: “239c33-2576-2a2837ce" 

Accept-Ranges: bytes 

Content-Length: 9590 

Connection: close 

Content-Type: text/html; charset=ISO- 8859-1 


图 3-5 HTTP HEAD 请 求 和 服务 器 响应 


HTTP 协 议 有 一 个 称 为 HEAD 的 特殊 请 求 ， 使 得 检查 页 面 是 否 发 生变 化 更 加 容易 了 。 
HEAD 请 求 只 返回 页 面 的 头 部 信息 ， 而 不 是 页 面 内 容 。 图 3-5 给 出 了 HEAD 请 求 和 响应 的 实例 。 
Last-Modified 的 值 指出 了 页 面 内 容 最 后 一 次 发 生变 化 的 时 间 。 可 以 看 到 ， 在 对 GET 请 求 进行 
响应 时 ， 这 个 昌 期 信息 也 随 着 响应 一 起 发 送 。 这 就 允许 网 络 慌 虫 对 上 一 次 从 GET 请 求 接收 到 
的 日 期 与 HEAD 请 求 中 得 到 的 Last-Modified 的 值 进行 比较 。 

HEAD 请 求 降低 了 页 面 检查 的 开销 ， 但 并 没有 消除 这 个 开销 。 每 分 钟 对 每 个 页 面 进 行 检查 
是 不 可 能 的 。 这 不 仅 令 服 务 器 管理 员 产 生 反 感 ， 而 且 会 导致 网 络 息 虫 和 网 络 连接 的 负载 大 量 
增加 。 

值得 庆幸 的 是 ， 绝 大 多 数 的 网 页 并 不 是 每 几 分 钟 就 进行 更 新 的 。 其 中 的 一 些 的 确 更 新 得 
很 频繁 ， 如 新 闻 站 点 。 而 其 他 的 站 点 几乎 很 少 发 生变 化 ， 如 个 人 主页 。 即 便 是 相同 的 页 面 类 
型 ， 更 新 的 比率 也 有 很 大 的 不 同 。 例 如 ， 有 的 博客 一 天 内 更 新 很 多 次 ， 而 其 他 的 博客 几 个 月 
才 会 更 新 一 次 。 不 断 地 去 检查 那些 很 少 更 新 的 站 点 是 无 益 的 。 因 此 ， 网 络 扑 虫 的 一 个 任务 就 
是 评估 每 个 页 面 的 变化 比率 。 经 过 一 段 时 间 ， 该 数据 可 以 用 于 估计 每 个 网 页 的 变化 频率 。 

网 络 爬 虫 不 可 能 在 每 个 页 面 发 生变 化 时 都 立即 对 它 进 行 更 新 ， 它 需要 有 一 些 度量 方式 来 
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评估 采集 信息 的 时 新 性 。 本 章 中 已 经 将 时 新 性 用 作 一 般 性 术语 ， 但 是 时 新 性 也 是 一 种 度量 的 
名 字 。 在 时 新 性 的 度量 下 ， 如 果 所 采集 的 信息 是 一 个 网 页 最 近 的 备份 ， 那 么 这 个 页 面 就 是 时 
新 的 ， 否 则 就 是 陈旧 的 。 因 此 ， 时 新 性 是 指 所 抓 取 的 页 面 中 当前 为 新 网 页 的 比例 。 





年 龄 
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图 3-6 一 个 页 面 的 年 龄 和 时 新 性 随时 间 的 变化 


保持 时 新 性 看 起 来 好 像 确实 是 我 们 想 要 做 的 ， 但 对 于 时 新 性 的 优化 会 得 到 意 想不到 的 结 
果 。 假 设 http://www.example.com 是 一 个 众所周知 的 网 站 ， 每 隔 几 分 钟 它 的 首页 就 会 有 细小 的 
变化 。 除 非 你 的 网 络 仆 虫 不 停 地 选择 该 站 点 进行 网 页 抓 取 ， 否 则 你 所 得 到 的 通常 是 该 页 面 的 
一 份 过 时 的 备份 。 如 果 你 想 对 时 新 性 进行 优化 ， 正 确 的 方法 就 是 彻底 停止 对 该 站 点 的 信息 采 
集 。 如 果 该 页 面 一 向 都 不 是 时 新 的 ， 那 么 对 时 新 性 的 值 是 没有 帮助 的 。 取 而 代 之 的 是 ， 可 以 
将 网 络 爬 虫 资 源 分 配给 那些 很 少 发 生变 化 的 页 面 。 

当然 ， 如 果 你 确定 要 为 了 时 新 性 对 网 络 座 虫 进行 优化 ， 这 通常 会 引起 用 户 的 反感 。 因 为 
He TSE Hl bE http://www.example.com 的 页 面 ， 但 是 发 现 你 所 引用 的 该 页 面 的 备份 过 时 了 几 个 
月 ， 这 会 使 他 们 产生 困惑 。 

年 龄 (age) 是 可 以 使 用 的 更 好 的 度量 方法 。 在 图 3-6 中 可 以 看 到 年 龄 和 时 新 性 的 不 同 。 从 
图 中 的 上 半 部 分 可 以 看 到 ， 当 页 面 被 候 虫 采集 回来 的 时 候 ， 就 立即 成 为 时 新 的 。 但 是 一 旦 页 
面 发 生 了 变化 ， 所 采集 回来 的 网 页 就 成 为 过 时 的 了 。 在 年 龄 的 度量 下 ， 页 面 的 年 龄 为 0， 除 非 
该 页 面 发生 了 变化 。 这 时 ， 页 面 的 年 龄 逐渐 增加 ， 直 到 该 页 面 被 聆 虫 再 次 采集 ， 页 面 的 年 龄 
又 回 到 0。 

假设 一 个 页 面 的 变化 频率 为 ， 这 意味 着 我 们 期 望 该 页 面 在 一 天 的 周期 内 变化 和 次。 我 们 
可 以 计算 出 一 个 页 面 从 上 一 次 采集 :天 之 后 该 页 面 的 年 龄 期 望 值 : 


Agel, 中 P( 在 时 间 为 x 时 页 面 发 生变 化 X(t ~ x) dx 





图 3-7 一 个 页 面 的 平均 变化 频率 =1/7 (一 个 星期 ) 时 ， 该 页 面 的 年 龄 期 望 值 
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表达 式 (t-x) RANMA: 假定 页 面 在 时 间 t 被 采集 ， 在 时 间 x 时 页 面 发 生 了 变化 。 将 
该 表达 式 与 页 面 在 时 间 x 发 生变 化 的 概率 相 乘 。 研 究 表明 ， 网 页 的 更 新 一 般 遵 循 汽 松 分 布 ， 这 
意味 着 页 面 下 一 次 更 新 的 时 间 受 指数 分 布 (Cho & Garcia-Molina, 2003) 支配 。 将 其 插入 到 表 
达 式 P (在 时 间 为 zx 时 页 面 发 生变 化 ) 中 得 到 : 
Age(A, 1) = fet- xdr 


图 3-7 中 给 出 了 该 表达 式 的 曲线 ， 此 时 入 17， 也 就 是 页 面 大 约 每 周 变化 一 次 。 注 意 ， 为 什 
么 年 龄 的 期 望 值 是 从 0 开始 的 ， 而 且 该 曲线 在 开始 时 上 升 得 比较 缓慢 ?这 时 因为 页 面 在 第 一 天 
时 不 可 能 发 生变 化 。 随 着 天 数 的 增加 ， 页 面 发 生变 化 的 概率 也 随 之 增 大 。 在 周末 的 时 候 ， 该 页 
面 年 龄 的 期 望 值 大 约 为 2.6 天 。 也 就 是 说 ， 如 果 怜 虫 每 周 采集 一 次 页 面 ， 而 且 集 合 中 的 每 个 页 
面 平均 更 新 时 间 为 一 周 ， 那 么 在 候 虫 再 次 启动 采集 网 页 之 前 ， 索 引 中 页 面 的 平均 年 龄 为 2.6 天 。 

年 龄 的 二 阶 导 数 函 数值 通常 是 正 的 。 也 就 是 说 ， 图 中 的 曲线 不 仅 是 上 升 的 ， 而 且 曲 线 的 
增长 率 也 是 呈 上 升 趋势 的 。 这 个 正 数值 还 意味 着 网 页 的 年 龄 越 大 ， 不 采集 它 的 代价 也 越 大 。 
对 时 新 性 度量 的 优化 可 以 得 出 ， 有 时 候 对 一 个 页 面 不 进行 采集 是 节省 开销 的 ， 但 对 年 龄 这 种 
度量 的 优化 却 不 能 得 到 这 样 的 结论 。 
3.2.4 面向 主题 的 信息 采集 

有 些 用 户 会 希望 搜索 引擎 关注 某 一 个 特定 话题 的 信息 。 例 如 ， 对 于 一 个 与 电影 有 关 的 站 
点 ， 用 户 可 能 会 希望 通过 使 用 搜索 引擎 给 他 们 带 来 更 多 的 电影 方面 的 信息 。 如 果 能 够 正确 地 
构建 这 种 类 型 的 垂直 搜索 (vertical search) ， 那 么 与 通用 搜索 相 比 ， 它 能 够 提供 更 高 的 准确 率 ， 
因为 文档 集合 中 没有 无 关 信 息 。 垂 直 搜索 中 的 计算 开销 也 会 比 全 网 搜索 的 开销 低 很 多 ， 因 为 
垂直 搜索 中 的 文档 集合 规模 相对 来 讲 要 小 很 多 。 

为 垂直 搜索 抓 取 网 页 的 最 精确 的 方式 是 ， 首 先 对 整个 互联 网 的 网 页 进行 采集 ， 然 后 扔 掉 
所 有 那些 不 相关 的 页 面 。 这 种 策略 需要 大 量 的 磁盘 存储 空间 和 带宽 ， 而 最 终 大 多 数 的 网 页 都 
会 被 筛选 掉 。 

相对 来 说 代价 较 低 的 方法 是 面向 主题 (focused) 或 话题 (topical) 的 信息 采集 。 主 题 候 
虫 试图 只 下 载 那些 和 一 个 特定 主题 相关 的 页 面 。 主 题 疏 虫 依据 这 样 一 个 事实 ; 一 个 话题 的 页 
面 中 含有 指向 同一 话题 的 其 他 页 面 的 链接 。 如 果 这 个 依据 成 立 的 话 ， 主 题 息 虫 可 以 从 一 个 特 
定 话题 的 页 面 开 始 信息 采集 ， 接 下 来 对 跟踪 这 个 根 页 面 中 的 链接 采集 该 话题 的 所 有 页 面 。 在 
实际 应 用 中 ， 一 个 特定 话题 的 多 个 权威 的 页 面 都 被 用 做 种 子 页 面 。 

主题 您 虫 需要 一 些 自动 工具 来 判断 一 个 页 面 是 否 与 某 个 特定 的 主题 相关 。 第 9 章 中 将 会 介 
绍 文本 分 类 技术 ， 它 可 以 用 做 自动 判断 的 工具 。 一 个 页 面 被 下 载 之 后 ， 叭 虫 使 用 分 类 器 来 确 
定 该 页 面 是 否 与 给 定 的 主题 相关 。 如 果 是 相关 的 ， 则 保留 该 页 面 ， 而 该 页 面 中 的 超 链接 则 用 
于 发 现 其 他 相关 的 站 点 。 页 面 中 的 外 出 链接 上 的 锚 文 本 是 主题 相关 性 判定 的 很 重要 的 线索 。 
还 有 ， 一 些 页面 比 其 他 页 面 含 有 更 多 的 与 话题 相关 的 超 链接 。 在 对 一 个 页 面 中 的 超 链 搂 进 行 
访 疝 的 时 候 ， 底 虫 可 以 继续 跟踪 下 载 页 面 的 话题 相关 性 ， 以 此 来 确定 是 否 下 载 其 他 类 似 的 页 
面 。 锚 文本 数据 和 与 页 面 超 链接 话题 相关 的 数据 可 以 结合 在 一 起 ， 用 于 确定 你 虫 接 下 来 要 采 
集 的 页 面 。 


325 深层 网 络 。 、 
并 不 是 互联 网 中 的 所 有 站 点 都 易于 进行 慌 取 和 导航 的 。 那 些 网 络 怜 虫 很 难 找到 的 站 点 统 
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称 为 深层 网 络 (deep Web， 也 称 为 隐藏 网 络 ，hidden Web)。 尽 管 深层 网 络 的 规模 很 难 精确 地 
评估 ， 但 一 些 研究 估计 它 的 规模 超过 传统 索引 的 网 络 规模 一 百倍 。 

属于 深层 网 络 的 大 多 数 站 点 都 可 以 归 为 如 下 三 类 : 

。 私 人 站 点 (private site)。 这 些 站 点 是 倾向 于 隐私 内 容 的 ， 没 有 任何 指向 它 的 链接 ， 或 者 

在 使 用 该 站 点 之 前 ， 需 要 使 用 有 效 的 账号 进行 人 注册。 虽然 一 些 新 闻 出 版 商 仍然 希望 他 们 

的 内 容 被 主要 的 搜索 引擎 索引 ， 但 是 这 类 站 点 通常 要 求 阻止 假 虫 对 页 面 进行 存 取 。 

。 表 单 结果 (form result)。 这 些 站 点 通常 在 向 表单 中 填写 数据 之 后 才能 进入 。 例 如 ， 销 售 

机 票 的 站 点 , 通常 在 页 面 的 入 口 处 会 询问 旅行 的 信息 。 在 你 递交 了 本 次 旅行 的 信息 之 后 ， 

航班 信息 才 会 显示 出 来 。 尽 管 你 可 能 会 希望 使 用 搜索 引擎 找到 航班 时 刻 表 ， 但 大 多 数 的 

礁 虫 都 不 可 能 越过 这 个 表单 获取 航班 时 刻 表 的 信息 。 

* 脚 本 页 面 (scripted page)。 是 使 用 JavaScript、Flash 或 其 他 客户 端 语言 的 页 面 。 如 果 一 

个 链接 并 不 是 以 HTML 语 言 给 出 的 ， 而 是 通过 在 浏览 器 中 运行 JavaScript 生 成 的 ， 扑 虫 需 

要 在 该 页 面 上 执行 JavaScript 才 能 找到 这 个 链接 。 虽 然 在 技术 上 这 是 可 行 的 ， 但 执行 

JavaScript 会 很 大 程度 地 影响 肘 虫 抓 取 页 面 的 速度 ， 并 增加 系统 的 复杂 性 。 

有 时 候 人 们 会 对 静态 页 面 (static page) 和 动态 页 面 (dynamic page) 进行 区 分 。 静 态 页 
面 是 指 存储 在 网 络 服务 器 上 并 在 浏览 器 上 不 需要 修改 即 可 显示 的 文件 ， 而 动态 页 面 可 能 会 是 
在 网 络 服务 器 或 客户 端 上 执行 代码 的 结果 。 通 常 认 为 静态 网 页 易于 采集 ， 而 动态 网 页 不 易于 
抓 取 。 然 而 ， 事 实 上 并 不 是 这 样 。 一 些 动 态 生 成 页 面 的 站 点 也 易于 采集 ， 维 基 百 科 就 是 很 好 
的 例子 。 共 他 拥有 静态 页 面 的 站 点 也 不 易于 采集 ， 因 为 它们 需要 通过 填写 表单 才能 对 页 面 进 
行 采集 。 

与 私人 站 点 不 同 的 是 ， 使 用 表单 结果 和 脚本 页 面 站 点 的 管理 员 通常 希望 他 们 的 站 点 被 搜 
索引 擎 索引 。 在 这 两 个 类 别 中 ， 脚 本 页 面 很 容易 处 理 。 站 点 管理 员 通 常 只 需要 对 页 面 进行 轻 
微 的 改动 ， 超 链接 就 可 以 在 服务 器 端 通过 代码 生成 ， 而 不 需要 在 浏览 器 中 利用 代码 生成 。 虽 
然 可 能 会 花费 一 些 时 间 ， 但 座 虫 也 可 以 运行 JavaScript 及 Flash。 

最 难 的 问题 是 那些 使 用 表单 结果 的 站 点 。 通 常 ， 这 些 站 点 是 那些 变化 的 数据 的 仓库 ， 通 
过 表单 将 一 个 用 户 查 询 发 送 给 数据 库 系 统 。 如 果 数 据 库 中 包含 儿 百 万 条 记录 ， 该 站 点 会 向 搜 
索引 擎 的 疏 虫 提供 几 百 万 的 超 链 接 。 将 上 百 万 的 链接 添加 到 站 点 的 首页 中 显然 是 不 可 行 的 。 
另外 一 个 选择 就 是 让 疏 虫 来 猜测 需要 在 表单 中 输入 什么 样 的 数据 ， 但 很 难 选择 好 的 表单 输入 。 
即便 是 猜测 得 比较 准确 ， 这 种 方法 也 不 可 能 得 到 所 有 的 隐藏 数据 。 

3.2.6 网 站 地 图 

正如 在 前 两 节 所 看 到 的 ， 信 息 采 集中 出 现 的 最 大 的 问题 是 网 站 管理 员 不 能 很 好 地 将 网 站 
的 信息 告诉 息 忠 程序。 在 3.2.3 节 中 了 解 到 扑 虫 必须 去 猜测 页 面 什么 时 候 会 更 新 的 原因 是 由 于 
轮 询 机 制 开销 很 大 。 在 3.2.5 节 中 了 解 到 网 站 管理 员 们 有 时候 和 希望 一 些 数 据 被 搜索 引擎 抓 取 ， 
但 是 却 做 不 到 ， 因 为 没有 合理 的 地 方 来 存储 这 些 超 链接 。 网 站 地 图 (sitemap) 可 以 用 来 解决 
所 有 这 些 问题 。 

robots .txt 文 件 中 含有 一 个 对 网 站 地 图 的 引用 ， 如 图 3-8 所 示 。 网 站 地 图 中 含有 一 个 URL 的 
列表 以 及 与 这 些 URL 相 关 的 数据 ， 如 修改 的 时 间 和 修改 的 频率 。 


<?xml version="1. 0" encoding="UTF-8"?> 
<urlset xmlns="http: //www. sitemaps. org/schemas/sitemap/@. 9"> 
<url> 
<locohttp: //www. company. com/</loc> 
<lastmod>2008- @1-15</las tmod> 
<changefreq>monthly</changefreg> 
<priority>®. 7</priority> 


</url> 
<url> 
<locohttp: //www. company. com/items? item=truck</loc> 
<change freq> weekl y</changefreq> 
</url> . 
<url> 
<loc>http: //www. company. com/items? i tem=bicycle</loc> 
<changefreq>daily</changefreqg> 
</url> 
</urlset> 





图 3-8 网 站 地 图 文件 的 实例 


在 网 站 地 图 文件 的 实例 中 有 三 个 URL 的 记录 。 每 一 个 记录 中 ， 在 loc 标 签 中 含有 一 个 URL。 
changefreq 标 签 标识 该 资源 可 能 经 过 多 长 时 间 发 生变 化 。 第 一 个 记录 中 含有 一 个 las tmod 标 签 ， 
指出 上 一 次 发 生变 化 的 时 间 。 第 一 个 记录 中 还 包含 一 个 priority 标签 ， 什 为 0.7， 高 于 平均 什 
0.5。 这 个 值 的 目的 是 告诉 候 虫 程序 ， 在 这 个 网 站 中 该 页 面 比 其 他 页 面 更 加 重要 。 

为 什么 网 站 管理 员 对 于 创建 一 个 网 站 地 图 会 感到 困惑 ? -- 个 原因 是 为 了 告诉 搜索 引擎 屠 
些 用 别 的 方法 可 能 找 不 到 的 页 面 。 看 一 下 网 站 地 图 文件 实例 中 的 第 二 个 和 第 三 个 URL 记 录 ， 
假设 它们 是 通过 表单 结果 生成 的 页 面 。 在 这 个 网 站 里 可 能 没有 任何 链接 指向 这 些 页 面 ， 而 用 
户 必须 通过 搜索 框 得 到 它们 。 比 较 简单 的 网 络 扑 虫 不 会 向 搜索 框 中 填写 任何 数据 (尽管 有 些 
高 级 的 网 络 想 虫 可 能 会 这 样 做 ) ， 这 样 ， 这 些 页 面 对 搜 索引 擎 来 说 是 不 可 见 的 。 网 站 地 图 人 允许 
吟 虫 程序 找到 这 些 隐藏 的 内 容 。 

网 站 地 图 还 可 以 使 腿 虫 程序 知道 页 面 的 修改 时 间 。 在 关于 页 面 的 时 新 性 讨论 中 ， 我 们 提 
到 假 虫 程序 必须 去 猜测 页 面 什么 时 候 可 能 会 发 生变 化 。changefreq 标签 给 爬虫 程序 提供 了 -- 
个 上 暗示， 告诉 它 什么 时 候 去 对 页 面 是 否 发 生变 化 进行 检查 ，las tmod 标签 则 告诉 什么 时 候 页 
面 发 生 了 变化 。 这 有 助 于 在 不 辆 牲 页 面 时 新 性 的 条 件 下 ,减少 疏 虫 发 送 给 网 站 的 请 求 数量 。 
3.2.7 分 布 式 信息 采集 

对 单个 的 网 站 进行 信息 采集 时 ， 使 用 一 台 计算 机 就 足够 了 。 然 而 ， 对 整个 网 络 进行 信息 
采集 则 需要 多 台 计 算 机 。 为 什么 不 能 用 一 台 单独 的 计算 机 进行 信息 采集 呢 ? 主 要 考虑 三 个 方 
面 的 原因 。 

使 用 多 台 计 算 机 的 一 个 原因 是 ， 将 疏 虫 程序 放 在 采集 信息 的 网 站 附近 。 长 距离 网 络 连接 
会 具有 较 低 的 吞吐 量 (每 秒 钟 只 备份 少量 的 字 节 ) 和 较 长 的 延迟 时 间 ( 字 节 数据 需要 经 过 更 
长 距离 的 传输 ) 。 降 低 吞吐 量 和 增 大 延迟 时 间 ， 会 使 得 对 每 个 页 面 的 请 求 时 间 也 随 之 增加 。 随 
着 吞吐 量 下 降 和 延迟 时 间 的 增加 ， 趴 虫 必须 开放 更 多 的 连接 ， 以 便 以 同样 的 速度 对 页 面 进行 
备份 。 

例如 ， 假 设 一 个 爬虫 程序 有 一 个 传输 率 为 1IMB/s 的 网 络 连 接 。 网 页 的 平均 大 小 为 20K， 
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离 很 近 ， 那 么 数据 传输 率 可 能 会 达到 1MB/s。 然 而 ， 网 站 开始 传输 数据 需要 80ms 的 时 间 ， 因 
为 在 打开 连接 和 发 送 请 求 之 间 有 传输 延迟 。 假 设 每 次 请 求 需要 100ms 的 时 间 (80ms 的 延迟 时 
间 ，20ms 的 数据 传输 时 间 )。 用 50 乘 以 100ms， 可 以 看 到 ， 在 传输 50 个 页 面 时 需要 $ 秒 钟 的 时 
间 ， 其 中 包括 延迟 等 待 时 间 。 这 意味 着 ， 在 一 秒 钟 内 传输 50 个 页 面 需 要 使 用 5 个 连接 。 如 果 被 
采集 信息 的 网 站 息 虫 程序 所 在 的 计算 机 距离 很 远 ， 网 站 的 平均 吞吐 量 为 100K/s，500ms 的 延 
述 时 间 ， 那 么 处 理 每 一 个 请 求 需 要 600ms。50 x 600ms=30s。 这 时 ，1 秒 钟 内 要 传输 50 个 页 面 
需要 30 个 连接 。 

使 用 多 台 计 算 机 用 于 信息 采集 的 另外 一 个 原因 是 ， 为 了 减少 爬虫 需要 记 住 的 网 站 数目 。 
候 虫 程序 必须 记 住所 有 它 曾 经 进行 过 信息 采集 的 URL， 以 及 队列 中 存放 的 即将 进行 采集 的 
URL。 这 些 URL 必 须 易于 存 取 ， 因 为 采集 到 的 每 个 页 面 都 含有 新 的 链接 ， 需 要 将 这 些 新 的 链 
接 添加 到 采集 队列 中 。 扑 虫 程序 中 的 队列 不 能 含有 重复 的 URL 或 已 经 采集 过 的 页 面 的 URL， 
每 一 个 新 的 URL 必 须 与 队列 中 的 所 有 元 素 进 行 检查 ， 并 与 已 经 采集 过 的 所 有 URL 进 行 检查 。 
这 个 用 于 查找 的 数据 结构 需要 存放 在 RAM 中 ， 否 则 ， 计 算 机 采集 页 面 的 速度 将 严重 受到 限制 。 
将 信息 采集 的 任务 分 摊 给 多 台 计 算 机 ， 可 以 降低 存储 和 检查 的 开销 。 

使 用 多 台 计 算 机 用 于 信息 采集 的 第 三 个 原因 是 ， 可 以 使 用 大 量 的 计算 资源 (computing 
resources)， 包 括 用 于 分 析 的 CPU 资 源 ， 用 于 页 面 采 集 的 网 络 带 宽 。 对 网 络 中 的 大 部 分 页 面 进 
行 采集 ， 仅 使 用 单独 的 一 台 计 算 机 需要 处 理 大 量 的 工作 。 

分 布 式 网 络 息 虫 更 像 单 狼 一 台 计 算 机 上 的 息 虫 程序, 但 它 拥有 多 个 URL 队 列 , 而 不 是 一 个 。 
分 布 式 网 络 候 虫 使 用 散 列 函数 将 URL 分 配给 进行 信息 采集 的 计算 机 。 当 一 个 仆 虫 程序 看 到 了 一 
个 新 的 URL， 就 对 读 地 址 计算 它 的 散 列 值 ， 以 确定 读 地 址 由 哪 台 进行 信息 采集 的 计算 机 人 负责。 
将 这 些 URL 分 批 进行 汇总 ， 然 后 周期 性 地 发 送 ， 以 减少 每 次 发 送 一 个 URL 的 网 络 开销 。 

散 列 函数 只 需要 对 URL 中 的 主机 部 分 进行 计算 。 这 样 ， 可 以 将 某 一 主机 下 的 所 有 URL 分 
配给 单独 的 一 个 假 虫 程序 。 虽 然 有 些 主机 与 其 他 的 主机 相 比 含有 更 多 的 页 面 ， 这 可 能 会 增加 
爬虫 程序 之 间 URL 分 配 的 不 平衡 性 ， 但 礼貌 规则 要 求 在 同一 主机 上 的 不 同 URL 抓 取 之 间 需 要 
时 间 延 迟 。 对 于 同一 主机 上 的 所 有 URL 使 用 同一 台 计 算 机 进行 信息 采集 ， 会 更 加 易于 支持 礼 
貌 规则 中 需要 的 时 间 延 迟 。 另 外 ， 我 们 期 望 domain.com 上 的 网 站 有 大 量 的 链接 指向 
domain.com 上 的 其 他 页 面 。 通 过 将 domain.com 分 配给 单独 的 一 个 肘 虫 程序 ， 可 以 减少 在 多 
台 用 于 信息 采集 的 计算 机 之 间 交 换 URL 的 数量 。 


3.3 文档 和 电子 邮件 的 信息 采集 


尽管 互联 网 是 一 个 巨大 的 信息 资源 ， 但 大 量 的 数字 信息 并 没有 存储 在 网 站 上 。 本 节 中 ， 
我 们 将 考虑 那些 普通 的 人 台式 计算 机 上 可 能 会 发 现 的 信息 ， 如 电子 邮件 、 字 处 理 文 档 、 讲 稿 或 
电子 表格 。 这 些 信息 可 以 通过 桌面 搜索 (desktop search) 工具 搜索 到 。 在 公司 和 组 织 机 构 中 ， 
企业 搜索 (enterprise search) 会 利用 文件 服务 器 或 员工 个 人 计算 机 上 的 文档 ， 以 及 局 域 网 内 
的 网 页 。 

当 我 们 面 对 台 式 计 算 机 上 的 数据 时 ， 互 联网 信息 采集 中 的 一 些 问 题 在 这 里 发 生 了 变化 。 
在 互联 网 信息 采集 中 ， 仅 仅 找到 数据 就 是 很 艰难 的 任务 。 在 台式 计算 机 中 ， 感 兴趣 的 数据 都 
是 以 熟悉 的 组 织 形 式 存放 在 一 个 文件 系统 中 。 由 于 文件 系统 中 含有 易于 查找 的 目录 ， 在 磁盘 
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中 找到 所 有 的 文件 并 不 是 很 困难 的 。 从 某 种 方式 上 看 ， 一 个 文件 系统 更 像 是 一 台 网 络 服务 器 ， 
但 它 具 有 自动 生成 的 网 站 地 图 。 

然而 ， 在 采集 桌面 数据 的 时 候 ， 会 遇 到 一 些 特殊 的 问题 。 首 先 ， 涉 及 的 问题 是 更 新 速度 。 
在 桌面 搜索 系统 中 ， 用 户 要 求 搜索 结果 是 基于 文件 的 当前 内 容 的 。 这 意味 着 ， 要 能 够 搜索 到 
刚刚 接收 到 的 电子 邮件 ， 要 能 够 搜索 到 一 个 刚刚 被 保存 的 文档 。 这 和 互联 网 搜索 的 预期 结果 
是 不 同 的 ， 互 联网 搜索 中 ， 可 以 容忍 信息 采集 延迟 几 个 小 时 或 者 几 天 。 每 隔 儿 秒 钟 就 对 文件 
系统 进行 信息 采集 是 不 切实 际 的 ， 但 是 现代 文件 系统 能 够 直接 向 疏 虫 程序 发 送 变化 通知 ， 这 
样 它们 可 以 立即 对 新 的 文件 进行 备份 。 文 件 服务 器 中 的 远程 文件 系统 通常 不 提供 这 种 类 型 的 
变化 通知 ， 因 此 它们 必须 像 网 络 服务 一 样 被 肘 取 。 

磁盘 空间 是 另外 一 个 涉及 的 问题 。 对 于 网 络 假 虫 ， 我 们 假定 需要 对 找到 的 每 一 个 文档 保 
留 一 个 备份 。 对 于 桌面 系统 来 说 并 不 是 这 样 ， 桌 面 系统 中 文件 已 经 在 本 地 进行 存储 了 ， 而 且 
如 果 大 部 分 磁盘 空间 都 被 索引 器 占有 的 话 ， 用 户 会 很 不 满意 。 这 时 ， 桌 面 惟 虫 会 将 文档 读 人 
内 存 中 ， 并 且 将 它 直 接 发 送 给 索引 器 。 第 5 章 中 会 对 索引 进行 进一步 的 讨论 。 

由 于 网 站 都 是 通过 网 络 浏览 器 查看 的 ， 大 多 数 的 网 络 内 容 都 是 以 KTML 格 式 存储 的 。 另 
一 方面 ， 每 一 个 桌面 程序 ， 如 字 处 理 器 、 讲 稿 设计 工具 、 电 子 邮 件 程 序 等 等 ， 都 有 自己 的 文 
件 格 式 。 因 此 ， 仅 仅 找 到 这 些 文件 是 不 够 的 ， 最 终 需 要 将 它们 转换 成 索引 器 能 够 理解 的 统一 
格式 。 在 3.5 节 中 ， 我 们 会 再 次 讨论 这 种 转换 问题 。 

最 后 ， 可 能 也 是 最 重要 的 ， 采 集 桌 面 数据 需要 重点 关注 隐私 问题 。 桌 面 系统 中 ， 多 个 用 
户 可 以 使 用 不 同 的 账户 登录 ， 用 户 A 不 能 通过 搜索 发 现 用 户 B 账 户 中 的 电子 邮件 。 当 我 们 把 网 
络 文件 系统 的 信息 采集 与 企业 内 部 网 的 信息 采集 同等 看 待 时 ， 这 个 问题 显得 特别 地 重要 。 文 
件 存 取 权 限 必 须 伴随 着 采集 到 的 数据 进行 记录 ， 而 且 必 须 保持 是 最 新 的 。 


3.4 文档 信息 源 


通常 来 讲 ， 对 于 互联 网 信息 采集 或 桌面 信息 采集 ， 我 们 假定 所 有 的 文档 都 可 以 在 任意 的 
时 间 被 创建 或 修改 。 然 而 ， 一 些 文档 是 出 版 物 (Published) ， 也 就 是 说 ， 这 些 文档 在 某 个 时 间 
被 创建 ， 并 且 几 乎 不 再 更 新 。 新 闻 文 章 、 博 客 帖子 、 通 讯 稿 和 电子 邮件 ， 都 是 属于 出 版 物 这 
种 类 型 的 文档 。 绝 大 多 数 对 时 间 不 敏感 的 信息 都 属于 出 版 物 。 

每 一 个 出 版 物 文 档 都 有 一 个 与 它 关联 的 时 间 ， 来自 同一 个 源头 的 出 版 物 文档 可 以 在 一 个 
文档 信息 源 (document feed) MFT PBZ), MAHI BRIER RO, Ae Te 
过 仅 检 查 信息 源 就 发 现 所 有 的 新 文档 。 

我 们 可 以 区 分 两 种 类 型 的 文档 信息 源 ，push 和 pull。 当 有 新 的 文档 产生 时 ，push 类 型 信息 
源 会 向 订阅 者 发 出 通知 。 这 类 似 于 一 台电 话 ， 当 有 来 电 时 可 以 通知 你 ， 并 不 需要 不 停 地 查看 
电话 以 便 知道 是 否 有 人 打 来 电话 。pull 类 型 信息 源 需 要 订阅 者 周期 地 查看 是 否 有 新 文档 。 这 类 
似 于 为 了 查看 是 否 有 新 邮件 而 对 邮箱 进行 检查 。 来 自 商 业 新 闻 的 新 闻 信 息 源 通常 属于 push 类 
型 信息 源 ， 但 对 于 那些 无 偿 服务 ，pull 类 型 信息 源 的 使 用 更 加 普遍 。 在 本 节 中 ， 我 们 主要 关注 
pull 类 型 信息 源 。 

pull 类 型 信息 源 最 常见 的 形式 称 为 RSS。RSS 至 少 有 三 个 定义 : 简易 信息 诊 合 、RDF 站 点 
摘要 或 丰富 站 点 摘要 。 训 无 疑问 ，RSS 有 许多 种 略为 不 同 的 实现 ， 并 存在 相似 但 不 同 的 格式 ， 
称 为 Atom 联 合格 式 (Atom Syndication Format) 。 由 于 一 个 想法 很 快 地 被 开发 者 接受 ， 但 他 们 


43 BRR AE eR 29 








并 不 满意 单独 的 一 个 标准 ， 因 此 导致 了 标准 的 扩展 。 

图 3-9 给 出 了 http://www.search-engine-news.org 网 站 RSS 源 的 一 个 示例 。 这 个 信息 源 包 括 
两 个 内 容 : 一 个 是 关于 即将 召开 的 SIGIR 会 议 的 ， 另 一 个 是 关于 一 本 教科 书 的 。 每 个 记录 中 含 
有 一 个 时 间 ， 该 时间 指出 该 项 记录 所 指示 内 容 的 出 版 时 间 。 另 外 ， 在 RSS 源 开始 的 地 方 ， 有 
一 个 tl 标签 ， 表 示 存 活 时 间 (time to live) ， 该 时 间 以 分 钟 为 单位 。 该 标签 及 共 中 的 内 容 表示 
它 的 内 容 只 缓存 60 分 钟 ， 超 过 一 个 小 时 的 信息 即 被 看 作 是 过 时 的 信息 。 这 就 给 看 虫 程序 一 个 
提示 ， 这 个 信息 源 文件 需要 多 久 岭 取 一 次 。 


<?xml version="1. 6" ?> 
<rss version="2. 0"> 
<channel> . 

<title>Search Engine News</title> 
<link>http: //www. search- engine-news. org/</link> 
<description>News about search engines. </description> 
<language>en- us</language> 
<pubDate>Tue, 19 Jun 2008 05:17:00 GMT</pubDate> 
<ttl>6e</ttl> 


<item 
<title>Upcoming SIGIR Conference</title> 
<link>http: //www. sigir. org/conference</link> 
<description>The annual SIGIR conference is coming! 
Mark your calendars and check for cheap 


flights. </description> 
<pubDate>Tue, @5 Jun 2008 09:50:11 GMT</pubDate> 
<guid>http: //search- engine- news. org#5@0</pguid> 
</item 


<item> 
<title>New Search Engine Textbook</title> 
<link>http: //www. cs. umass. edu/search-book</link> 
<description>A new textbook about search engines 

will be published soon. </description> 

<pubDate>Tue, @5 Jun 2008 09:33:91 GMT</pubDate> 
<guid>http: //search- engine-news. org#499</guid> 

</item> 

</channel> 
</rss> 





图 3-9 RSS 2.0 源 的 实例 


RSS 源 可 以 像 网 页 一 样 被 存 取 ， 向 保存 它们 的 网 络 服务 器 发 送 HTTP GET 请 求 。 由 此 ， 
前 面 我 们 所 讨论 的 信息 采集 技术 也 可 以 应 用 于 RSS 源 ， 例 如 使 用 HTTP HEAD 请 求 检 测 RSS 源 
何 时 发 生 了 变化 。 

从 信息 采集 的 角度 来 看 ， 与 传统 页 面相 比 ， 文 档 信息 源 具 有 很 多 的 优点 。 信 息 源 对 数据 
给 出 了 合理 的 结构 ， 甚 至 超越 了 网 站 地 图 ， 网 络 信息 源 隐 含 着 数据 记录 之 间 的 某 种 关联 。 很 
容易 就 可 以 对 信息 新 进行 分 析 ， 而 且 和 网 站 地 图 类 似 ， 信 息 源 中 包括 详细 的 时 间 信 息 ， 还 包 
插 对 每 一 个 页 面 的 描述 域 (描述 域 有 的 时 候 包 括 URL 指 向 页 面 的 全 部 文本 ) 。 最 重要 的 是 ， 类 
似 于 网 站 地 图 ， 信 息 源 提供 了 一 个 单独 的 位 置 用 于 查找 新 的 数据 ， 而 不 是 为 了 找到 新 的 文档 
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3.5 转换 问题 


搜索 引 敬 用 于 在 文本 中 进行 搜索 。 遗 憾 的 是 ， 计 算 机 中 文本 是 以 几 百 种 相互 之 间 不 兼容 
的 格式 进行 存储 的 。 标 准 的 文本 格式 包括 原始 文本 、RTF、HTML、XML、Word、ODEF (F 
放 文 档 格 式 ) 以 及 PDF (便携 式 文档 格式 )。 还 有 有 几 十 种 不 常用 的 字 处 理 器 使 用 它们 自己 的 文 
件 格 式 。 但 是 ， 文 本 文档 并 不 是 需要 搜索 的 唯一 类 型 的 文档 ， 其 他 类 型 的 文件 中 也 含有 重要 
的 文本 ， 如 PowerPoint 讲 演 稿 和 Excel 电 子 表格 。 除 了 所 有 的 这 些 文档 格式 ， 人 们 通常 还 希望 
搜索 一 些 旧 的 文档 ， 也 就 是 说 搜索 引擎 可 能 还 需要 支持 过 时 的 文件 格式 。 对 于 商业 化 的 搜索 
引擎 来 说 ， 支 持 上 百 种 文件 类 型 是 很 常见 的 。 

处 理 一 个 新 的 文件 格式 最 常见 的 方式 是 使 用 一 个 转换 工具 ， 将 文档 中 的 内 容 转 换 成 标签 
文本 格式 ， 如 HTML 或 XML。 这 些 格 式 很 窑 易 解析 ， 并 支持 一 些 重要 的 格式 信息 (如 字体 大 
小 )。 在 主要 的 网 络 搜 索引 擎 中 ， 可 以 看 到 这 种 文本 格式 。 如 果 打 算 搜索 PDF 文 档 ， 但 当 你 点 
击 搜索 结果 下 方 的 “Cached” 链 接 ， 会 得 到 对 于 该 文档 搜索 引擎 给 出 的 视图 ， 该 视图 通常 是 
将 原始 文本 转换 为 HIML 的 结果 。 对 于 一些 文档 类 型 ， 如 PowerPoint 、 搜 索引 擎 缓存 的 版 本 几 
平 是 不 可 读 的 。 幸 和 运 的 是 ， 可 读 性 并 不 是 搜索 引擎 关注 的 重点 。 搜 索引 擎 涉及 的 主要 问题 是 ， 
将 数据 备份 到 搜索 引 敬 中 ， 以 便 能 够 建立 索引 并 被 检索 到 。 然 而 ， 将 数据 转换 成 为 HTML 格 
式 有 一 个 优点 : 为 了 查看 一 个 文档 ， 用 户 不 需要 有 专用 的 能 够 识别 该 文档 文件 格式 的 应 用 程 
序 。 对 于 过 时 的 文件 格式 ， 这 一 点 很 重要 。 

文档 可 以 转换 为 纯 文 本 ， 而 不 是 HTML 或 XML ， 但 这 么 做 会 将 一 些 重要 的 信息 从 文档 
中 剥离 出 去 ， 如 标题 、 字 体 大 小 等 ， 这 些 信息 对 索引 器 来 讲 是 很 有 价值 的 。 正 如 我 们 将 要 和 看 
到 的 ， 标 题 和 黑体 文本 中 ， 可 能 含有 准确 描述 文档 内 容 的 词 ， 在 计算 分 值 的 时 候 我 们 希望 对 
这 些 词 进行 特殊 的 处 理 。 只 有 对 格式 信息 进行 了 准确 的 转换 ， 索 引 器 才能 抽取 出 这 些 重要 的 
信息 。 | 
字符 编码 

由 于 字符 编码 (character encoding) 的 问题 ， 即 便 是 HTML 文 件 之 间 也 不 能 很 好 地 互相 兼 
容 。 在 纸 面 上 你 所 看 到 的 文本 是 一 系列 的 图 形 ， 称 为 字母 (letter) 或 符号 (glyph), 4R, 
计算 机 中 的 文件 是 一 个 二 进 制 流 ， 而 不 是 图 形 的 集合 。 字 符 编码 就 是 在 二 进 制 位 和 符号 之 间 
的 一 个 映射 。 对 于 英文 来 讲 ， 基 本 的 字符 编码 采用 的 是 1963 年 就 开始 使 用 的 ASCII 编 码 。 
ASCII 编 码 使 用 7 位 二 进 制 数 对 128 个 字母 、 数 字 、 特 殊 字符 及 控制 符 进行 编码 ， 另 外 附加 1 位 
以 字 节 方式 进行 存储 。 对 于 具有 26 个 字母 的 英文 来 讲 ， 这 个 编码 方案 很 精巧 。 但 是 世界 上 有 
许多 种 语言 ， 有 些 语言 有 相当 多 的 符号 。 例如， 汉语 中 有 40 000 多 个 汉字 ， 常 用 字 也 超过 
3000 个 。 用 于 东亚 语言 的 CJK (中 文 一 日 文 -韩文 ) 语系 ， 制 定 了 很 多 不 同 的 2 字 节 编码 标准 。 
其 他 的 语言 ， 如 北 印度 语 或 者 阿拉 伯 语 ， 也 有 很 多 不 同 的 编码 方案 。 即 便 是 英文 ， 也 不 是 所 
有 的 编码 都 一 致 。 例 如 ， 在 大 型 主机 上 使 用 的 EBCDIC 编 码 方 案 与 个 人 计算 机 上 使 用 的 ASCII 
编码 方案 完全 不 同 。 

在 处 理 中 文 和 阿拉 伯 语 的 复杂 字符 集 上 ， 计 算 机 行业 的 进展 很 缓慢 。 直 到 最 近 ， 代 表 性 
的 方法 是 使 用 不 同 的 特定 语言 编码 ， 有 时 称 为 代码 页 (code page)。 每 种 编码 方案 中 的 开始 
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128 个 数值 都 保留 给 英文 的 字母 、 标 点 和 数字 。 大 于 128 的 数字 都 映射 到 从 希 伯 来 语 到 阿拉 伯 
语 中 的 符号 ,. 然而 ， 如 果 对 每 种 语言 使 用 不 同 的 编码 方案 ， 在 同一 个 文档 中 就 不 能 同时 使 用 
项 伯 来 语 和 日 语 。 同 时 ， 文 档 也 不 再 是 自 描述 的 了 。 只 将 数据 存放 在 文本 文件 中 是 不 够 的 ， 
必须 同时 记录 它 所 使 用 的 编码 。 

为 了 解决 混乱 的 编码 问题 ， 人 们 制定 了 Unicode 编 码 方案 。Unicode 是 从 数字 到 符号 的 一 
个 上 映射， 该 方案 中 试图 包含 所 有 语言 中 的 所 有 符号 。 这 样 就 解决 了 在 单个 文件 中 使 用 多 种 语 
言 的 问题 。 遗 憾 的 是 ， 它 并 没有 完全 解决 二 进 制 编码 的 问题 ， 因 为 Unicode 是 数字 到 符号 之 
间 的 上 映射， 而 不 是 二 进 制 位 到 符号 之 间 的 映射 。 结 果 导 致 会 有 很 多 种 方式 将 Unicode 中 的 数 
字 转 换 成 符号 。 其 中 一 些 普 遍 使 用 的 方式 包括 UTF-8、UTF-16、UTF-32 和 UCS-2 (不 推荐 该 
方法 )。 

编码 方案 的 发 展 起 源 于 对 兼容 性 和 节省 空间 的 需求 。 用 UTF-8 对 英文 文本 进行 编码 时 ， 与 
ASCII 编 码 方案 是 一 致 的 。 每 个 ASCII 字 母 只 需要 一 个 字 节 。 然 而 ,一 些 繁体 汉字 会 需要 四 个 
字 节 。 为 了 能 够 对 大 多 数 的 语言 文字 进行 编码 ， 也 为 了 减少 对 西方 语言 进行 编码 的 长 度 ， 折 
中 方案 是 每 个 字符 用 可 变 的 字 节 数 表示 ， 但 这 样 会 使 得 计算 字符 串 中 某 个 字符 的 数目 或 者 自 
动 跳 转 到 字符 串 中 的 随机 位 置 变 得 更 加 困难 。 相 比 之 下 ，UTF-32 (也 就 是 UCS-4) 对 每 个 字 
符 都 使 用 4 个 字 节 进行 编码 。 这 使 得 在 UTF-32 编 码 的 字符 串 中 ， 跳 转 到 第 20 个 字符 变 得 更 加 
容易 ， 即 跳 转 到 第 80 个 字 节 处 开始 读 取 。 遗 憾 的 是 ，UTE-32 编 码 的 字符 串 和 过 去 使 用 ASCII 
编码 的 软件 不 兼容 ， 并 且 UTF-32 编 码 的 文件 比 UTF-8 编 码 的 文件 需要 四 倍 的 空间 进行 存储 。 
因此 , 一些 应 用 程序 对 国际 化 文本 进行 编码 的 时 候 使 用 UTF-32 (随机 存 取 显得 很 重要 )， 但 
将 文本 进行 存储 的 时 候 使 用 UTF-8 编 码 方案 。 


表 3-1 UTF-8 编码 


十 进 制 十 六 进 制 编码 形式 
0~127 0~7F OXXXXXXX 
128 ~ 2047 80 ~ 7FF 110xxxxx 10xxxxxx 
2048 ~ 55295 800 ~ D7FF 111Ọxxxx 1Oxxxxxx 10XXXXXX 
55296 ~ 57343 D800 ~ DFFF 未 定义 
57344 ~ 65535 E000 ~ FFFF 1110xxxx 1Oxxxxxx 10XXXXXX 
65536 ~ 1114111 10000 ~ 10FFFF - 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx 


表 3-1 给 出 了 UTF-8 的 编码 表 。 表 中 左边 的 列表 示 十 进 制 数值 的 范围 ， 最 右边 的 列表 示 这 
些 十 进 制 数值 以 二 进 制 方式 编码 的 形式 。 字 符 x 表 示 二 进 制 数字 。 例 如 ， 希 腊 字母 在 Unicode 
中 对 应 数字 960， 对 应 的 二 进 制 数 为 00000011 11000000 (十 六 进 制 数 为 3C0)。 表 中 的 第 二 行 
告诉 我 们 ， 这 个 字符 在 UTF-8 中 需要 用 两 个 字 节 进行 编码 。3C0 的 高 五 位 二 进 制 数落 在 第 一 个 
字 节 中 ， 接 下 来 的 6 位 藩 在 第 二 个 字 节 中 。 该 字符 最 终 的 UTF-8 编 码 为 11001111 10000000 (对 
应 的 十 六 进 制 为 CF80)。 其 中 加 粗 的 二 进 制 位 与 表 中 的 相同 ， 表 中 的 x 字符 对 应 的 位 由 
Unicode 数 字 的 二 进 制 数 值 进行 填充 。 


3.6 存储 文档 


为 了 对 文档 进行 索引 ， 文 档 转 换 为 统一 的 格式 之 后 需要 对 其 进行 存储 。 最 简单 的 文档 存 
储 是 不 对 文档 进行 存储 ， 对 于 一 些 应 用 ， 这 样 做 是 可 取 的 。 例 如 ， 在 桌面 搜索 中 ， 文 档 已 经 
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存储 在 文件 系统 中 了 ， 不 需要 再 备份 到 其 他 地 方 。 当 信息 采集 进程 运行 的 时 候 ， 它 可 以 将 经 
过 转换 的 文档 直接 发 送 给 索引 进程 。 由 于 不 需要 存储 文档 转换 的 中 间 结 果 ， 桌 面 搜索 系统 就 
可 以 节省 磁盘 空间 ， 这 改善 了 索引 需要 的 延迟 。 

绝 大 多 数 的 搜索 引擎 都 需要 将 文档 存储 在 某 个 地 方 。 为 了 对 搜索 结果 创建 网 页 摘要 ， 
就 需要 对 文档 中 的 文本 进行 快速 的 存 取 。 为 用 户 提供 网 页 文本 的 摘要 ， 是 为 了 使 用 户 不 需要 
点 击 相应 的 链接 ， 就 能 够 知道 检索 到 的 文档 的 主要 内 容 。 

网 页 摘要 并 不 是 必需 的 ， 还 有 其 他 的 一 些 原因 也 需要 对 每 一 个 文档 都 保留 一 个 备份 。 从 
CPU 和 网 络 的 负载 来 看 ,文档 采 集 的 代价 是 很 高 的 。 可 将 文档 进行 备份 ， 当 下 次 再 建立 索引 
的 时 候 ， 就 不 需要 再 次 抓 取 它们 了 ， 这 对 于 降低 CPU 和 网 络 负载 是 很 有 意义 的 。 可 以 保存 那 
些 曾 抓 取 过 的 文档 ， 交 许 在 谎 虫 程序 中 使 用 HEAD 请 求 以 节省 带宽 ， 或 者 只 疏 取 索引 页 面 的 
一 个 子 集 。 

最 后 ， 文 档 存储 系统 是 信息 抽取 ( 见 第 4 章 ) 的 起 点 。 网 络 搜索 引擎 中 最 常见 的 一 种 信息 
抽取 类 型 是 ， 从 超 链 接 中 提取 锚 文 本 ， 将 锚 文 本 和 文档 一 起 存储 。 也 可 能 会 使 用 其 他 类 型 的 
信息 抽取 ， 如 在 文档 中 识别 人 名 和 地 名 。 如 果 在 搜索 中 使 用 信息 抽取 ， 那 么 文档 存储 系统 需 
要 能 够 支持 对 文档 数据 的 修改 。 

接 下 来 ,我 们 讨论 对 文档 存储 系统 的 一 些 基本 和 需求， 包括 随机 存 取 、 压 缩 和 更 新 ， 并 讨 
论 使 用 数据 库 系统 或 定制 的 存储 系统 (如 BigTable) 的 相对 优点 。 


3.6.1 使 用 数据 库 系 统 


如 果 你 以 前 使 用 过 关系 数据 库 ， 你 可 能 会 认为 数据 库 很 适合 用 户 存 储 文档 数据 。 实 际 上 ， 
对 于 一 些 应 用 系统 来 说 ， 数 据 库 是 存储 文档 的 好 地 方 。 对 于 具有 很 多 碎片 的 数据 ， 如 网 页 ， 
数据 库 考 虑 到 了 很 多 细节 的 问题 ， 并 且 易 于 今后 的 更 新 。 绝 大 多 数 的 数据 库 可 以 作为 网 络 服 
务 器 运行 ， 这 使 得 文档 可 以 在 网 络 上 应 用 。 由 于 具有 这 样 的 特点 ， 单 独 的 一 台 计 算 机 可 以 用 
于 生成 文档 搞 要， 同时 其 他 的 一 些 计算 机 可 以 处 理 用 户 查询 。 数 据 库 系统 中 含有 一 些 有 用 的 
输入 和 分 析 工 具 ， 这 使 得 对 文档 集合 的 管理 更 加 简单 。 

一 些 网 络 搜索 引擎 公 司 不 愿意 谈论 它们 的 技术 细节 。 然 而 ， 主 要 的 搜索 引擎 中 ， 很 少 使 
用 传统 的 关系 数据 库 来 存储 文档 。 一 个 问题 是 , 大 量 的 文档 数据 会 压 垮 关 系数 据 库 系统 。 一 
些 数据 库 经 销 商 希望 数据 库 服务 器 使 用 最 昂贵 的 磁盘 系统 ， 但 对 于 这 样 的 文档 集合 规模 来 讲 
是 不 实际 的 。 在 本 市 的 最 后 ， 我 们 讨论 关系 数据 库 的 另外 一 种 方案 ， 那 里 会 涉及 上 面 关注 的 
这 些 问 题 。 
3.6.2 随机 存 取 

要 对 文档 进行 快速 检索 ， 以 便 对 一 个 搜索 的 结果 生成 网 页 摘要 ， 文 档 存储 需要 能 够 支持 
随机 存 取 。 然 而 ， 与 关系 数据 库 相 比 ， 只 需要 一 个 相对 简单 的 查找 标准 。 我 们 需要 一 个 数据 
库 ， 使 我 们 能 够 根据 URL 得 到 文档 的 内 容 。 

最 简单 的 处 理 这 种 查找 的 方式 是 使 用 散 列 。 对 URL 使 用 散 询 函数 可 以 得 到 一 个 数值 ， 利 
用 这 个 数值 可 以 找到 所 需要 的 数据 。 对 于 小 规模 的 系统 ， 散 列 函 数 可 以 告诉 我 们 哪 一 个 文件 
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含有 这 个 文档 。 对 于 大 规模 的 系统 ， 散 列 函 数 可 以 告诉 我 们 哪 一 个 服务 器 含有 这 个 文档 。 一 
且 文 档 的 位 置 限定 在 一 个 单独 的 文件 中 时 ， 就 可 以 使 用 B-Tree 或 者 排序 的 数据 结构 ， 找 到 文 
档 数据 在 文件 中 的 偏 移 位 置 。 

3.6.3 压缩 和 大 规模 文件 

不 管 应 用 系统 是 否 需 要 对 文档 进行 随机 存 取 ， 文档 存 储 系统 都 需要 大 规模 的 文件 和 压缩 
技术 。 

尽管 对 于 用 户 来 讲 ， 文 档 看 上 去 可 能 会 很 长 ， 但 对 于 现代 计算 机 来 讲 ， 这 样 的 文档 规模 
是 很 小 的 。 例如， 本 章 中 的 内 容 大 约 有 10 000 字 左右 , 存储 这 些 内 容 大 约 需 要 70K 的 磁盘 空间 。 
比 网 页 的 平均 大 小 要 大 很 多 ,但 现代 的 磁盘 系统 传输 70K 的 数据 大 约 仅 需 要 1 个 毫秒 。 然 而 ， 
为 了 对 文件 进行 读 取 ， 磁 盘 系 统 可 能 会 需要 10 毫 秒 的 时 间 来 寻找 这 个 文件 。 这 就 是 为 什么 文 
档 在 它 自 己 的 文件 中 存放 不 是 一 个 好 的 想法 ， 打 开 这 些 零散 的 小 文件 来 读 取 文 档 的 内 容 ， 需 
要 大 量 的 时 间 开 销 。 一 个 较 好 的 解决 方案 是 ， 将 多 个 文档 存储 在 一 个 单独 的 文件 中 ， 但 这 样 
做 的 结果 会 使 文件 变 得 很 大 ， 以 至 于 在 网 络 上 传输 该 文件 的 时 间 开 销 会 远 远大 于 搜索 文档 的 
时 间 。 文 件 的 合理 大 小 应 该 是 几 百 兆 字 节 。 通 过 将 多 个 文档 在 文件 中 一 起 存放 ， 索 引 器 可 以 
将 大 量 的 时 间 用 于 数据 内 容 的 读 取 上 ， 而 不 是 文档 内 容 的 查找 上 。 

在 Galago 搜 索引 擎 中 ,含有 三 种 混合 文档 格式 的 解析 器 : ARC、TREC 文 本 和 TREC Web, 
在 每 种 格式 中 ， 大 量 的 文档 都 存储 在 同一 个 文件 中 ， 各 文档 之 间 以 一 个 较 短 的 文档 元 数据 区 
域 进行 分 晤 。 图 3-10 给 出 了 TREC Web 格 式 。 每 个 文档 块 以 <DOC> 标签 开始 ， 并 以 </DOC> 
标签 结束 。 在 文档 的 开始 部 分 ，<DOCHDR> 标签 部 分 含有 页 面 请 求 的 信息 ， 如 它 的 URL、 页 
面 采 集 的 日 期 以 及 网 络 服务 器 返回 的 HTTP 头 部 信息 。 每 个 文档 记录 还 包 插 一 个 <DOCNO> 部 
分 ， 该 部 分 包括 该 文档 的 一 个 唯一 的 识别 符 。 

大 规模 的 文件 对 于 从 磁盘 传输 数据 是 有 很 大 意义 的 ， 但 减少 对 文档 集合 的 总 体 存储 需求 
也 有 着 很 明显 的 优势 。 幸 运 的 是 ， 人 们 书写 的 文本 通常 都 有 较 大 的 元 余 性 。 例 如 ， 字 母 g 的 
后 面 通常 会 跟随 着 字母 u, ER (1951) 指出 ， 对 于 英语 是 母语 的 人 ， 能 够 在 英文 文本 中 猜 
出 下 一 个 字母 的 准确 率 为 69%。HTML 和 XML 中 的 标签 具有 更 大 的 元 余 性 。 针 对 元 余 性 采用 
Æ (compression) 技术 ， 可 以 使 文件 在 不 丢失 任何 信息 的 基础 上 变 得 更 小 。 我 们 将 在 第 5 章 
中 介绍 文档 的 压缩 技术 ， 这 样 做 的 部 分 原因 是 由 于 对 于 索引 的 压缩 相当 特别 。 目 前 ， 文 本 压 
缩 技术 仍 有 大 量 的 研究 ， 常 用 的 算法 像 DEFLATE (Deutsch, 1996) 和 LZW (Welch, 1984), 
能 够 对 HTML 和 XML 文 本 压缩 80%。 空 间 的 节省 降低 了 存储 大 量 文档 的 开销 。 由 于 有 时候 只 
需要 读 取 少 量 的 字 节 ， 这 样 也 降低 了 从 磁盘 中 读 取 文档 的 时 间 开 销 。 

对 于 大 块 的 数据 ， 压 缩 的 效果 较 好 ， 这 样 就 使 得 大 规模 的 文件 中 可 以 存放 数量 较 多 的 
文档 。 然 而 ， 把 这 个 文件 作为 单独 的 一 个 数据 块 进行 压缩 是 不 必要 的 。 绝 大 多 数 的 压缩 方 
法 都 不 支持 随机 存 取 ， 因 此 每 一 个 数据 块 会 被 相继 地 解压 缩 。 如 果 希 望 能 够 对 数据 进行 随 
机 存 取 ， 较 好 的 方式 是 考虑 对 小 数据 块 进行 压缩 ， 一 个 文档 可 以 是 一 个 数据 块 ， 或 者 少量 
的 文档 组 成 一 个 数据 块 。 小 数据 块 降低 了 压缩 率 〈 节 省 空间 的 数量 ) ， 却 能 够 降低 请 求 等 待 
的 时 间 。 i 
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<DOC> | 


<DOCNO> WTX@01-B@1- 10< /DOCNO> 

<DOCHDR> 

http: //www. example. com/test. html 204. 244.59, 33 19970101013145 text/html 440 
HTTP/1. @ 200 OK 

Date: Wed, 01 Jan 1997 01:21:13 GMT 

Server: Apache/1. @. 3 

Content-type: text/html 

Content-length: 270 

Last-modified: Mon, 25 Nov 1996 05:31:24 GMT 
` </DOCHDR> 

<HTML> 

<TITLE>Tropical Fish Store</TITLE> 

Coming soon! 

</HTML> 

</DOC> 

<DOC> 

<DOCNO> WTX801- B61- 109< /DOCNO> 

<DOCHDR> 

http: //www. example. com/ fish. html 204. 244.59. 33 19970101013149 text/html 440 
HTTP/1. 9 200 OK 

Date: Wed, @1 Jan 1997 @1: 21:19 GMT 

Server; Apache/1. 0. 3 

Content-type: text/html 

Content-length: 278 

Last-modified: Mon, 25 Nov 1996 05: 31:24 GMT 
</DOCHDR> 

<HTML> 

<TITLE>Fish Information</TITLE> 

This page will soon contain interesting 
information about tropical fish. 

</HTML> 

</DOC> 











图 3-10 TREC Web 混 合 文档 格式 中 的 文本 内 容 实例 


3.6.4 更 新 

当 扑 虫 程序 抓 取 到 了 文档 的 新 的 版 本 时 ， 需 要 对 文档 数据 库 进 行 更 新 。 可 以 采用 的 一 种 
方式 是 ， 将 爬虫 抓 取 来 的 新 的 、 变 化 了 的 文档 与 文档 数据 库 中 那些 没有 发 生变 化 的 文档 数据 
进行 合并 ， 重 新 生成 一 个 新 的 文档 存储 。 但 如 果 文 档 数据 的 变化 较 小 ， 与 仅 在 相应 的 位 置 对 
数据 进行 更 新 相 比 ， 这 个 合并 过 程 的 开销 会 更 大 。 


更 的 外 一 个 和 要 原因 是 外 多 
本 。 图 3-11 给 出 了 HTML 链 接 标 签 中 的 锚 文 


本 的 实例 。 图 中 的 HTML 代 码 在 网 络 浏览 图 3-11 具有 销 文本 的 链接 

器 中 表示 为 超 链接 ， 超 链接 上 有 锚 文本 Example website， 当 点 击 这 个 超 链接 的 时 候 ， 会 将 用 
户 带 到 所 指向 的 http://example.com 网 站 上 。 销 文本 是 一 个 很 重要 的 特征 ， 因 为 它 对 目标 网 页 
内 容 给 出 了 精确 的 摘要 。 如 果 这 个 链接 来 自 另 外 一 个 不 同 的 网 站 ， 我 们 仍然 会 相信 摘要 信息 
是 准确 的 ， 这 同样 有 助 于 对 文档 进行 排序 ( 见 第 4 章 和 第 7 章 )。 
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由 于 锚 文 本 需要 和 目标 网 页 相关 联 ， 因 此 准确 收集 锚 文本 是 很 困难 的 。 简 单 的 方法 是 ， 
使 用 一 个 支持 更 新 的 数据 库 。 当 发 现 一 个 文档 中 含有 错 文 本 时 ， 我 们 找到 目标 网 页 的 记录 ， 
并 对 记录 中 的 锚 文 本 进行 更 新 。 当 对 文档 进行 索引 的 时 候 ， 锚 文本 也 可 以 一 起 进行 索引 。 
3.6.5 BigTable 


虽然 数据 库 可 以 履行 文档 数据 库 的 职责 ， 但 规模 庞大 的 文档 集合 需要 特殊 的 文档 存储 系 
统 。BigTalbe 是 一 个 众所周知 的 文档 存储 系统 (Chang et al. 2006)。 至 少 有 两 个 开源 项 目 都 使 
用 了 类 似 的 方法 ， 但 BigTable 是 内 部 使 用 的 一 个 运行 
系统 。 在 接 下 来 的 段落 中 ， 将 看 到 BigTable 的 架构 ， 

了 解 文档 存储 是 如 何 影响 它 的 设计 的 。 

在 开始 用 于 存储 网 页 时 ，BigTable 是 一 个 分 布 式 
数据 库 系 统 。BigTable 实 际 上 的 确 是 一 个 很 庞大 的 
表 ， 它 的 规模 可 以 超过 1PB (1024TB )， 但 每 一 个 数 
据 库 只 含有 一 个 表 。 每 个 表 被 分 割 成 为 小 块 ， 称 为 
tablet， 通 过 上 千 台 的 机 器 提供 支持 ( 见 图 3-12)。 


如 果 你 了 解 关系 数据 库 ， 就 会 使 用 过 SQL (Struc- EaR 
tured Query Language， 结 构 化 查询 语言 ) 。SQL 支 持 tablet 
用 户 书写 一 些 复杂 的 、 大 计算 量 的 查询 ， 数 据 库 系统 图 3-12 BigTable 在 一 个 逻辑 表 中 存储 数据 ， 
的 任务 之 一 就 是 优化 这 些 对 查询 的 处 理 ， 尽 可 能 快 地 该 表 被 分 割 成 一 些 更 小 的 tablet 


完成 这 些 处 理 过 程 。 由 于 其 中 的 一 些 查 询 可 能 需要 花 

费 很 长 的 时 间 才 能 完成 ， 所 以 一 些 大 型 的 关系 数据 库 采 用 了 复杂 的 锁定 系统 ， 以 保证 大 量 用 
户 同时 对 数据 库 进行 读 或 写 操作 时 ， 数 据 库 不 会 崩溃 。 将 众多 的 用 户 互 相隔 离开 是 一 个 很 困 
难 的 任务 ， 很 多 文章 和 书籍 都 讨论 了 如 何 能 更 好 地 使 用 户 相 互 分 离 。 

BigTable 方 法 有 很 大 的 不 同 。 没 有 查询 语言 ， 也 就 没有 复杂 的 查询 ， 只 有 row-level 事 务 ， 
从 关系 数据 库 的 标准 来 看 ， 这 是 很 简单 的 任务 。 然 而 ， 如 果 采 用 价格 低廉 的 计算 机 ， 这 个 简 
单 的 模型 会 使 BigTable 达 到 很 大 的 数据 规模 ， 尽 管 这 样 的 计算 机 易于 出 现 故 障 。 

BigTable 的 实现 中 ， 绝 大 部 分 的 任务 是 关于 故障 恢复 的 。tablet 是 逻辑 表 中 很 小 的 部 分 ， 
复制 到 另外 一 个 文件 系统 中 进行 存储 ， 该 文件 系统 可 以 被 BigTable 中 所 有 的 tablet 服 务 器 存 取 。 
BigTable 中 tablet 的 变化 记录 在 事务 日 志 中 ， 日 志 存储 在 一 个 共享 的 文件 系统 中 。 如 果 某 个 
tablet 服 务 器 死机 了 ， 另 外 一 台 服 务 器 可 以 立即 从 文件 系统 中 读 取 taplet 数 据 和 事务 日 志 ， 并 将 
工作 承担 过 来 。 

绝 大 多 数 的 关系 数据 库 将 数据 存放 在 文件 中 ， 该 文件 会 被 不 停 地 进行 修改 。 相 反 ， 
BigTable 将 文件 存储 在 永远 不 变 的 〈 不 能 改变 的 ) 文件 中 。 一 旦 数据 写 入 到 了 BigTable 的 文件 
中 ， 它 就 不 再 变化 了 。 这 样 做 也 有 助 于 故障 的 恢复 。 关 系数 据 库 中 ， 故 障 恢 复 需 要 一 系列 复 
杂 的 操作 来 保证 文件 不 会 被 破坏 ， 因 为 在 计算 机 出 现 故障 之 前 只 完成 了 部 分 写 操作 。BigTable 
中 文件 或 者 是 不 完整 的 〈 这 时 候 文件 可 以 被 委 掉 ， 可 以 从 其 他 的 BigTable 文 件 和 事务 日 志 重 新 
创建 )， 或 者 是 完整 的 ， 因 此 不 会 被 破坏 。 最 新 的 数据 存储 在 RAM 中 以 支持 表 的 更 新 ， 而 过 
时 的 数据 存储 在 一 系列 的 文件 中 。 这 些 文件 周期 性 地 合并 在 一 起 ， 以 减少 磁盘 文件 的 数目 。 
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铺 文 本 :other.com 标题 
销 文 本 :null.com 


文档 文本 点 击 此 处 | 实例 站 点 


图 3-13 BigTable 中 的 一 行 . 


BigTable 逻 辑 上 是 以 行 的 方式 组 织 的 ( 见 图 3-13)。 图 中 ， 该 行 存 储 了 一 个 单独 网 页 的 数 
据 。URL 地 址 为 www.example.com， 是 该 行 的 主键 ， 用 于 对 该 行 的 查找 。 行 中 有 很 多 列 ， 每 
个 列 有 唯一 的 名 字 。 每 一 列 可 以 有 一 些 时 间 标 记 ， 在 图 中 没有 给 出 来 。 行 的 主键 、 列 的 主键 
以 及 时 间 标 记 组 合 在 一 起 ， 指 向 一 行 中 的 一 个 单元 (cell), 

图 中 ， 对 于 文档 的 全 文 有 一 个 文本 列 ， 还 有 一 个 标题 列 ， 这 样 ， 不 需要 对 全 部 的 文档 文 
本 进行 分 析 ， 就 可 以 快速 地 找到 文档 的 标题 。 有 两 列 用 于 锚 文 本 。 一 个 是 anchor : other.com, 
包含 从 站 点 other.com 指向 example.com 的 超 链接 的 锚 文 本 ， 如 图 中 的 单元 所 示 ， 超 链接 上 的 
XÆ “example”, anchor : null.com 描述 了 从 null.com 指向 example.com 的 一 个 超 链 接 上 的 
锚 文本 是 “点 击 此 处 ”。 这 些 列 都 属于 锚 文 本 列 组 (column group)。 可 以 向 该 列 组 中 增加 其 
他 的 列 ， 以 增加 更 多 的 链接 信息 。 

BigTable 中 ， 每 行 可 以 有 许多 列 ， 所 有 的 行 具有 相同 的 列 组 ， 并 不 是 所 有 的 行 都 有 相同 的 
列 。 这 是 和 关系 数据 库 系统 最 主要 的 区 别 ， 但 这 种 灵活 性 是 很 重要 的 ， 部 分 原因 是 由 于 没有 
那么 多 表 。 在 关系 数据 库 系统 中 ， 销 文本 对 应 的 列 会 存储 在 一 个 表 中 ， 而 文档 文本 存储 在 另 
外 一 个 表 中 。BigTable 中 只 有 一 个 表 ， 所 有 的 锚 文 本 信息 需要 包装 在 一 个 记录 中 。 将 文档 和 所 
有 的 锚 文 本 数据 存储 在 一 起 ， 读 取 所 有 的 文档 数据 只 需要 一 次 磁盘 读 取 。 在 具有 两 个 表 的 关 
系数 据 库 中 ， 要 得 到 所 有 的 文档 数据 ， 至 少 需要 两 次 对 磁盘 的 读 取 操作 。 

行 根据 它们 的 主键 被 分 割 为 tablet。 例如, 所 有 以 a 开始 的 URL 地 址 可 以 放 在 一 个 tablet 中 ， 
而 以 b 开始 的 URL 地 址 可 以 存放 在 另外 一 个 tablet 中 。 这 种 基于 范围 的 分 割 使 得 BigTable 的 客 
户 端 很 容易 就 可 以 确定 每 一 行 是 由 哪个 服务 器 提供 服务 的 。 要 查找 一 个 特定 的 行 ， 客 户 端 查 
阅 行 主键 的 范围 列表 来 确定 该 行 属于 哪个 tablet。 接 下 来 ， 客 户 端 与 这 个 tablet 的 服务 器 建立 连 
接 ， 来 获取 该 行 。 行 主键 的 范围 在 客户 端 进行 缓存 ， 这 样 可 以 保证 大 多 数 的 网 络 通信 都 是 在 
客户 端 和 tablet 服 务 器 之 间 的 。 

BigTable 的 架构 被 设计 用 于 提高 速度 和 增 大 规模 ， 而 且 出 于 经 济 上 的 考虑 ， 使 用 廉价 的 、 
易于 出 故障 的 计算 机 。 为 了 实现 这 些 目 标 ，BigTable 辆 性 了 关系 数据 库 中 的 一 些 主要 特征 ， 如 
复杂 的 查询 语言 和 多 表格 的 数据 库 。 然 而 ， 这 样 的 架构 很 适用 于 存储 和 找到 网 页 的 工作 ， 该 
工作 的 主要 任务 是 对 各 行进 行 高 效 的 查找 和 更 新 。 


3.7 重复 检测 


重复 和 近似 重复 (near-duplicate) 的 文档 会 在 很 多 情况 下 出 现 。 在 办 公 室 中 ， 对 文档 进 
行 备份 、 对 文档 创建 新 的 版 本 是 很 常见 的 行为 ， 对 这 些 行为 进行 跟踪 是 信息 管理 中 的 重要 内 
容 。 然 而 ， 在 互联 网 上 ， 情 况 会 更 加 极端 。 除 了 一 般 的 重复 来 源 ， 抄 袭 (plagiarism) 和 垃圾 
(spam) 是 很 普遍 的 ， 还 有 使 用 多 个 URL 地 址 指向 同一 网 页 以 及 镜像 站 点 (mirror site) ， 都 会 
使 腿 虫 程序 产生 大 量 的 重复 页 面 。 研 究 表明 ， 在 一 个 大 型 的 信息 采集 系统 中 ，30 多 的 网 页 是 
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和 另外 70% 的 网 页 完全 重复 或 近似 重复 的 (如 Fetterly et al., 2003), 

通常 ， 非 常 相 似 的 文档 内 容 不 能 或 者 只 能 给 用 户 提供 少量 的 新 信息 ， 但 在 信息 采集 、 索 
引 和 搜索 过 程 中 却 消耗 了 大 量 的 资源 。 为 了 解决 这 个 问题 ， 学 者 们 提出 了 一 些 用 于 重复 文档 
检测 的 算法 ， 这样 可 以 在 索引 和 排序 过 程 中 将 重复 的 文档 删除 ， 或 者 将 重复 的 文档 看 作 是 一 
组 文档 。 

对 完全 重复 的 文档 的 检测 是 相对 简单 的 任务 ， 可 以 使 用 检验 和 (checksumming) 技术 。 检 
验 和 是 根据 文档 内 容 计 算 的 一 个 数值 。 最 直接 的 检验 和 是 文档 文件 中 各 字 节 的 和 。 例 如 ， 对 于 
一 个 含有 文本 “Tropical fish” 的 文件 ， 检 验 和 可 以 按 如 下 的 方式 计算 (以 十 六 进 制 表示 ) 

T ro p i c a |1 f i sh 和 

54 72 6F 70 69 63 61 6C 20 66 69 73 68 508 

含有 相同 文本 的 任意 文档 会 含有 相同 的 检验 和 。 当 然 ， 任 意 的 文档 如 果 恰 好 具有 相同 的 
检验 和 ， 也 将 被 认为 是 重复 的 文档 。 例 如 ， 文 件 中 含有 相同 的 字符 但 顺序 不 同 ， 会 具有 相同 
的 检验 和 。 一 些 复杂 的 函数 ， 如 循环 元 余 校 验 (cyclic redundancy check, CRC) 中 ， 考 虑 到 
了 字 节 出 现 的 位 置 。 

对 于 近似 重复 文档 的 检测 比较 困难 ， 甚 至 如 何 定义 近似 重复 也 是 不 容易 的 。 例 如 ， 对 于 
网 页 来 说 ， 可 能 含有 相同 的 文档 内 容 ， 但 广告 、 日 期 、 格 式 不 同 。 其 他 的 页 面 可 能 由 于 修订 
或 者 更 新 在 内 容 上 了 略 有 不 同 。 通 常 ， 使 用 两 个 文档 之 间 相 似 度 的 域 值 来 定义 近似 重复 的 文档 。 
例如 ， 如 果 文 档 Pi 和 文档 D: 中 有 90% 的 词 是 重复 的 ， 那 么 它们 就 是 近似 重复 的 文档 。 

对 于 近似 重复 的 检测 ， 有 两 种 应 用 场合 。 一 个 是 在 搜索 场景 (search scenario) 下 ， 这 时 
它 的 目标 是 找到 与 给 定 文档 D 近 似 重 复 的 文档 。 类 似 于 所 有 的 搜索 问题 ， 涉 及 查询 文档 和 所 有 
其 他 文档 之 间 的 比较 。 对 于 含有 N 个 文档 的 集合 ， 这 样 的 比较 需要 的 开销 为 O(N)。 另 外 一 个 
场景 是 发 现 (discovery)， 涉 及 在 集合 中 找到 所 有 近似 重复 的 文档 对 。 这 个 过 程 需 要 的 开销 为 
OY)。 尽 管 在 信息 检索 技术 中 ， 在 搜索 场景 中 用 基于 词 表达 的 文档 来 进行 相似 度 的 计算 对 于 
近似 重复 的 文档 检测 是 有 效 的 。 但 在 发 现 的 场景 中 ， 相 似 度 的 计算 需要 一 些 新 的 技术 ， 得 出 
文档 的 简洁 表示 形式 。 这 些 简 洁 的 表示 形式 也 就 是 指纹 (fingerprint), 

生成 指纹 的 过 程 如 下 : 

1) 首先 对 文档 进行 分 词 处 理 。 删 除 那些 不 是 词 的 内 容 ， 如 标点 、HTML 标 签 和 空格 。 

2) 对 于 给 定 的 2， 将 这 些 词 组 合成 n-gram。 尽 管 在 一 些 技术 中 使 用 非 重 到 的 词 序列 ， 但 
n-gram 通常 是 相互 重合 的 词 序 列 ( 见 4.3.5 节 ) 。 

3) 其 中 的 一 些 n-gram 被 选择 用 于 表示 该 文档 。 

4) 对 这 些 被 选择 的 n-gram 进行 散 列 ， 以 提高 检索 的 效率 ， 并 进一步 减少 文档 表示 的 大 小 。 

5) 将 散 列 值 进行 存储 ， 通常 存储 在 倒 排 索引 中 。 

很 多 的 指纹 算法 都 使 用 该 方法 实现 ， 各 算法 之 间 主 要 的 区 别 在 于 如 何 对 n-gram 的 子 集 进 
行 选择 。 对 于 近似 重复 文档 的 检测 ， 随 机 选择 固定 数量 的 n-gram 并 不 能 改善 性 能 。 考 虑 两 个 
近似 相同 的 文档 D; 和 D,。 通 过 随机 地 从 文档 咏 ! 中 选择 n-gram 而 生成 的 指纹 ， 与 随机 地 从 文档 
D, 中 选择 n-gram 而 生成 的 指纹 不 可 能 有 很 多 的 重 琶 。 更 加 有 效 的 方法 是 使 用 事先 制订 的 字符 
组 合 ， 选 择 以 这 些 字符 开始 的 n-gram。 另 外 一 个 常见 的 方法 称 作 0 mod p， 选 择 那 些 散 列 值 模 
Pp 为 0 的 n-gram， 这 里 p 为 参数 。 

图 3-14 中 显示 了 使 用 重合 的 3-gram 生 成 指纹 的 过 程 ， 假 定 了 散 列 值 ， 以 及 0 mod p 的 选择 
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方法 ， 其 中 p=4。 在 选择 过 程 之 后 ， 文 档 (在 这 里 是 句子 ) 通过 一 些 n-gram 的 指纹 来 表示 ， 
“fish include fish”, “found in tropical”, “the world including” 以 及 “including both fresh 


water”, 
| Tropical fish include fish found in tropical environments around the world, 


including both freshwater and salt water species. 


a) 原始 文本 


tropical fish include, fish include fish, include fish found, fish found in, found in 
tropical, in tropical environments, tropical environments around, environments 
around the, around the world, the world including, world including both, including 
both freshwater, both freshwater and, freshwater and salt, and salt water, salt 
water species 





b) 3-gram 


938 664 463 822 492 798 78 969 143 236 913 908 694 553 870 779 
c) 散 列 值 


664 492 236 908 
d) 使 用 0 mod 4 选择 的 散 列 值 
图 3-14 指纹 生成 过 程 实例 


在 大 规模 的 应 用 中 ， 例 如 在 网 络 上 找到 近似 重复 的 文档 ，n-gram 通 常 有 5 ~ 107 ik], mi 
列 值 为 64 位 9。 

通过 对 表示 文本 的 指纹 进行 比较 ， 可 以 找 出 近似 重复 的 文档 。 近 似 重复 的 文档 对 是 通过 
两 个 文档 相同 的 指纹 数量 或 者 相同 指纹 占 总 指纹 数量 的 比例 来 进行 定义 的 。 然 而 ， 指 纹 并 不 
能 代表 所 有 的 文档 信息 ， 这 会 导致 在 近似 重复 的 检测 中 出 现 错误 。 恰 当 的 选择 方法 可 以 减少 
这 些 错误 ,但 不 能 消除 这 些 错 误 。 正 如 上 面 提 到 的 ， 评 价 结 果 显 示 出 ， 与 指纹 方法 相 比 ， 共 
于 词 表 的 相似 度 计算 如 余弦 相似 度 计算 ,通常 更 加 有 效 。 但 这 些 方 法 的 主要 问题 是 效率 不 高 。 

最 新 开发 的 一 种 称 为 simhash (Charikar, 2002) 的 指纹 技术 ， 吸 取 了 基于 词 的 相似 度 计 
算 的 优点 ， 以 及 基于 散 列 的 指纹 技术 的 高 效 性 。 访 方法 中 散 列 函数 具有 特殊 的 性 质 ， 即 相似 
的 文档 具有 相似 的 散 列 值 。 更 准确 地 说 ， 通 过 余弦 相似 度 计算 的 两 个 页 面 的 相似 度 ， 正 比 于 
simhash 方 法 生成 的 指纹 中 相同 的 位 数 。 l 

.simhash 方 法 中 ， 指 纹 计算 的 过 程 如 下 : 
”1) 利用 具有 权 值 的 特征 集合 来 表示 文档 。 简 单 的 情况 下 ， 假 定 特征 都 是 由 词组 成 的 ， 词 
的 权 值 由 它们 出 现 的 频率 来 确定 。 其 他 的 权 值 计 算 方 案 在 第 7 章 中 讨论 。 

2) 对 每 一 个 词 ， 生 成 位 的 散 列 值 (指纹 的 期 望 长 度 ) 。 每 个 词 都 具有 各 自 不 同 的 散 列 值 。 

3) 在 b 维 的 向 量 Y 中 ， 分 别 对 每 维 向 量 进 行 计算 。 如 果 词 相应 位 的 散 列 值 为 1， 则 进行 对 
其 特征 权 值 的 加 法 运算， 否则 进行 减法 运算 ， 通 过 这 种 方式 对 向 量 进行 更 新 。 

4) 当 所 有 的 词 都 处 理 完毕 之 后 ， 如 果 向 量 Y 中 第 ; 维 是 正 数 ， 则 将 2 位 的 指纹 中 第 i 位 设置 
为 1， 否 则 为 0。 





O BOGE ee ARR (Rabin fingerprinting，Broder 等 人 ，1997) 来 生成 ， 该 方法 是 以 以 色 列 计算 机 
科学 家 Michael Rabin 来 命名 的 。 
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图 3-15 给 出 了 一 个 8 位 指纹 的 处 理 过 程 。 去 除 常用 词 ( 停 用 词 ) 作为 文本 处 理 的 一 部 分 。 
实际 中 ，2 会 取 很 大 的 值 。Henzinger (2006) 中 叙述 了 一 个 基于 大 规模 网 页 的 评价 方法 ， 他 使 
用 的 指纹 有 384 位 。 如 果 一 个 网 页 和 另外 一 个 网 页 的 simhash 指 纹 中 有 多 于 372 位 是 相同 的 ， 那 么 
这 两 个 网 页 就 是 近似 重复 的 。 研 究 表明 ，simhash 指 纹 方法 比 n-gram 的 指纹 方法 有 更 好 的 效果 。 


3.8 去 除 噪声 


一 些 网 页 中 含有 文本 、 链 接 和 图 片 ， 但 这 些 内 容 并 不 是 和 页 面 的 主要 内 容 直 接 相关 的 。 
例如 ， 图 3-16 中 ， 网 页 含有 一 个 新 的 新 闻 。 页 面 的 主要 内 容 用 黑色 方 框 插 起 来 了 。 内 容 块 
(content block) 在 页 面 中 只 占 20% 的 显示 区 域 ， 余 下 的 部 分 包括 徽标 、 广 告 、 图 片 、 导 航 链 
接 、 服 务 《如 搜索 和 警告 ) 以 及 各 种 各 样 的 信息 ， 如 版 权 。 从 搜索 引擎 的 角度 看 ， 这 些 多 余 
的 内 容 绝 大 多 数 都 是 噪声 (noise) ， 对 页 面 的 排序 会 起 负面 的 作用 。 搜 索引 擎 中 使 用 的 页 面 表 
示 的 主要 组 件 是 基于 词 频 统计 的 ， 页 面 中 存在 大 量 的 与 主要 话题 无 关 的 词 就 成 为 一 个 问题 。 
因此 ， 出 现 了 用 于 对 网 页 中 的 内 容 块 进行 检测 的 技术 ， 同 时 忽略 页 面 上 的 其 他 内 容 或 者 在 索 
引 时 降低 其 他 内 容 的 重要 性 。 ` 


Tropical fish include fish found in tropical environments around the world, 
including both freshwater and salt water species. 


a) 原始 文本 


tropical 2 fish 2 include 1 found 1 environments 1 around 1 world 1 
including 1 both 1 freshwater 1 salt 1 water 1 species 1 


b) 对 词 加 权 


tropical 01100001 fish 10101011 include 11100110 
found 00011110 environments 00101101 around 10001011 
world 00101010 including 11000000 both 10101110 
freshwater 00111111 salt 10110101 water 00100101 
species 11101110 


c) 8 位 的 散 列 值 
1-59-93133 
d) 对 权 值 求 和 之 后 的 向 量 V 
10101111 
e) 由 向 量 V 得 到 的 8 位 的 指纹 
图 3-15 simhash 指 纹 处 理 过程 


Finn A (2001) 提出 了 一 个 非常 简单 的 方法 ， 该 方法 是 基于 对 HTML 标 签 的 观察 得 到 的 
方法 ,在 网 页 中 主要 内 容 部 分 的 文本 会 比 网 页 中 附加 内 容 的 文本 中 含有 更 少量 的 HTML 标 签 。 
图 3-17 《文档 斜率 曲线 ，document slope curve) 中 ,给 出 了 图 3-16 所 示 的 网 页 中 标签 的 累加 
式 分 布 。 页 面 的 主要 内 容 对 应 于 该 分 布 中 间 的 “高 地 ”部 分 。 平 坦 的 区 域 相对 较 小 ， 这 是 由 
于 页 面 的 HTML 源 文件 中 含有 大 量 的 格式 和 外 观 描述 的 信息 。 

对 该 分 布 中 最 大 的 平坦 区 域 进行 检测 的 一 种 方法 是 ， 使 用 二 进 制 位 序列 对 网 页 进行 表示 ， 
b=1 表 示 第 个 词素 是 一 个 标签 ， 否则 b,=0。 大 多 数 用 于 文本 格式 的 标签 ， 如 字体 变化 、 标 题 
和 表格 标签 ， 在 这 里 被 忽略 掉 (可 以 用 0 来 表示 )。 这 样 ， 主 要 内 容 块 的 检测 可 以 看 作 是 一 个 
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优化 问题 ATR BAPE, Fe TT ETA 
签 词 素 的 数量 ， 相 应 的 就 是 最 大 化 对 应 的 目标 函数 : 


Sb + Ya-b)+ Dd” 


n=l n=j+1 
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图 3-16 网 页 中 的 主要 内 容 块 


标签 统计 





Oo 3 500. l ‘2000. ae 1500 2000 : 2500. 3000 - _ 3500 
词素 统计 . 
图 3:17 标签 统计 用 于 区 别 网 页 中 的 文本 块 TE 
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NN 是 页 面 中 词素 的 数量 。 可 以 通过 粗略 地 设 定 可 能 的 i 和 和 j 的 值 ， 计 算 这 个 目标 函数 。 可 以 
看 到 ， 只 有 非 内 容 块 中 文本 词素 的 比例 小 于 标签 的 比例 ， 这 个 过 程 才 会 起 作用 ， 而 不 适用 于 
图 3-17 中 的 网 页 。Pinto 等 人 《2002) 对 这 个 方法 进行 了 修改 ， 使 用 一 个 文本 窗口 对 文档 斜率 
曲线 中 的 低 斜 率 部 分 进行 搜索 。 

网 页 的 结构 也 可 以 直接 用 于 识别 页 面 的 内 容 块 。 用 浏览 器 显示 一 个 网 页 ，HTML 解 析 器 
使 用 标签 解释 页 面 指定 的 结构 ， 并 创建 文档 对 象 模型 (DOM) 表示 。DOM 表 示 的 类 似 于 树 的 
结构 ， 可 以 用 来 识别 网 页 中 主要 的 部 分 。 图 3-18 给 出 了 图 3-16 中 网 页 的 部 分 DOM 结 构 8。 该 
结构 中 含有 新 闻 文 本 的 部 分 通过 注释 cnnArticalContent 给 出 。 

Gupta A (2003) 提出 了 一 种 方法 ， 递 归 遍 历 DOM 树 ， 使 用 不 同 的 过 滤 技 术 来 删除 和 
修改 树 中 的 节点 ， 只 留 下 内 容 部 分 。HTML 中 的 图 片 、 脚 本 等 元 素 通 过 简单 的 过 滤 就 可 以 去 
除 。 很 多 复杂 的 过 滤 技 术 可 以 用 于 去 除 广 告 、 链 接 列表 及 没有 内 容 的 表格 。 


回 #document 
| -HTML 
国 -HTML 
向 HEAD 
BODY contentArea 
A 
WA 
DNV 





由 Div cnnFootBox 


H 


图 3-18 示例 网 页 的 DOM 结 构 中 的 一 部 分 


DOM 结 构 提 供 了 网 页 中 各 组 成 部 分 的 有 用 信息 ， 但 它 很 复杂 ， 并 且 是 逻辑 和 布局 组 成 部 
分 的 混合 。 如 图 3-18 中 ， 文 章 的 内 容 隐藏 在 HTML 表格 (TABLE 标签) 中 ， 在 一 行 (TR 标签 ) 
的 表格 单元 (TD 标签 ) 中 。 这 时 候 使 用 表格 是 为 了 规定 网 页 的 布局 ， 而 不 是 在 语义 上 对 数据 
进行 关联 。 识 别 页 面 中 内 容 块 的 另外 一 种 方法 侧重 于 页 面 的 布局 和 外 观 。 换 旬 话 说 ， 视 觉 特 
征 ， 如 块 的 位 置 、 使 用 的 字体 大 小 、 字 体 和 背景 颜色 ， 以 及 分 隔 符 (如 横 线 和 空格 )， 这 些 都 
用 于 定义 显示 的 网 页 中 用 户 明显 看 到 的 信息 块 。Yu 等 人 (2003) 中 提出 了 一 个 算法 ， 从 DOM 


昌 ”使 用 Firefox 中 的 DOM 检 查 生成 的 。 
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上 述 讨论 的 第 一 个 算法 ， 即 基于 标签 分 布 的 方法 ， 对 于 只 有 单一 内 容 块 的 网 页 来 说 非常 
有 效 。 使 用 DOM 结 构 和 视觉 分 析 的 算 革 ， 可 以 处 理 可 能 有 多 个 内 容 块 的 网 页 。 在 有 较 多 内 容 
块 的 情况 下 ， 索 引 处 理 中 可 以 利用 每 个 块 的 相对 重要 性 来 生成 更 加 有 效 的 表示 。 判 断 网 页 中 
内 容 块 重要 性 的 一 个 方法 是 训练 一 个 分 类 器 (classifier)， 根 据 视觉 和 内 容 特 征 分 配 一 个 重要 
的 类 别 (R. Song et al., 2004), 
参考 文献 和 深入 阅读 . 

Cho 和 Garcia-Molina (2002, 2003) 撰写 了 一 系列 关于 网 络 息 虫 设计 的 很 有 影响 力 的 文 
章 。 关 于 页 面 时 新 性 策略 的 讨论 ， 很 多 来 自 Cho 和 Grarcia-Molina (2003) 的 文章 ，3.2.7 节 则 
摘自 Cho 和 Grarcia-Molina (2002) 的 文章 。 

现在 有 很 多 开源 的 网 络 腿 虫 。Heritrix 良 虫 8 是 为 Internet .Archive 项 目 开 发 的 ， 这 是 一 个 
功能 强大 的 、 可 升级 的 仆 虫 系统 。 系 统 采用 模块 化 设计 ， 在 运行 过 程 中 可 重新 配置 ， 这 样 的 
特点 使 得 该 系统 特别 适合 在 实验 中 使 用 。 

在 早期 网 络 搜索 中 ， 主 题 搜 索引 起 很 大 的 关注 。Menczer 和 Belew (1998) 及 Chakrabarti 
等 人 (1999) 扬 写 了 两 篇 很 有 影响 力 的 文章 。Menczer 和 Belew (1998) 的 文章 中 提出 了 一 个 
主题 仆 虫 想法 ， 它 是 由 多 个 自主 的 软件 代理 组 成 的 ， 理 论 上 每 个 用 户 使 用 一 个 代理 。 用 户 输 
入 URL 和 关键 词 的 列表 ， 接 下 来 代理 找到 那些 对 用 户 可 能 有 用 的 网 页 ， 用 户 可 以 通过 与 系统 
之 间 的 反馈 来 对 这 些 网 页 做 出 评价 。Chakrabarti 等 人 (1999) 的 文章 中 侧重 于 对 指定 主题 的 
索引 进行 采集 ， 扑 虫 使 用 一 个 分 类 器 来 确定 所 候 取 页 面 的 主题 ,还 有 一 个 提取 器 ， 用 于 判断 
一 个 页 面 作为 指向 其 他 页 面 的 链接 来 源 的 质量 。 他 们 利用 传统 的 非 主题 仆 虫 作为 参照 来 对 系 
统 进行 评价 ， 结 果 显 示 出 ， 非 主题 候 虫 使 用 一 个 主题 相关 的 链接 作为 种 子 ， 这 样 做 是 不 足以 
完成 主题 信息 采集 的 。 他 们 对 王 爬虫 的 评价 是 ， 网 络 中 宽泛 的 链接 结构 导致 非 主题 网 络 疏 虫 
采集 的 网 页 很 快 就 偏离 了 主题 ， 而 主题 有限 虫 却 可 以 成 功 地 保持 在 一 个 主题 的 信息 采集 上 。 

Unicode 规 范 无 疑 是 一 项 详细 的 工作 ， 覆 盖 了 成 千 上 万 的 字符 (Unicode Consortium, 
2006) 。 考 虑 到 一 些 非 西方 书写 字母 的 特性 ， 于 是 将 一 些 Unicode 的 字符 组 合 在 一 起 形成 一 些 
符号 。 因 此 ， 这 个 规范 必须 很 详细 ， 不 仅仅 表示 字符 是 什么 ， 而 且 还 有 它们 是 如 何 关联 到 一 
起 的 。 目 前 ,仍然 有 很 多 字符 阶段 性 地 梁 加 到 Unicode 中 。 

Bergman (2001) 的 文章 对 深层 网 络 进行 了 广泛 研究 ， 尽 管 该 研究 已 经 比较 过 时 了 。 他 指 
出 通过 搜索 引擎 如 何 采样 ， 才 能 有 助 于 估计 网 络 中 有 多 少 没 有 索引 的 内 容 。 该 项 研究 估计 诬 
层 网 络 中 存在 5 500 亿 的 网 页 ， 而 网 络 中 可 访问 的 网 页 只 有 10 亿 。He 等 人 (2007) 最 近 的 一 篇 
综述 文章 指出 ， 近 些 年 来 深层 网 络 在 不 断 地 增加 。Ipeirotis 和 Gravano (2004) 的 文章 中 提出 
了 一 个 称 为 查询 探测 的 技术 ， 用 于 生成 深层 网 络 数据 库 的 可 搜索 的 表示 。 

网 络 地 图 、robots.txt 文 件 、RSS 源 和 原子 信息 源 ， 它 们 每 个 都 有 自己 的 规范 ， 可 以 在 网 络 
上 找到 9S。 这 些 格式 说 明成 功 的 网 络 标准 通常 非常 简单 。 

© http//www.sitemaps.org。 

http://www..robotstxt.org 。 


http://www.rssboard.org/rss-specification, 
http://www .rfe-editor.org/rfe/rfc5023 txt, 
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正如 上 面 所 提 到 的 ， 对 于 一 些 应 用 系统 ， 数 据 库 可 以 用 来 对 网 络 采 集 的 文档 进行 存储 。 
然而 ， 我 们 对 数据 库 的 讨论 只 大 部 分 限定 于 和 BigTable 进 行 比较 。 有 很 多 教科 书 ， 如 Garcia- 
Molina A (2008) ， 提 供 了 关于 数据 库 如 何 工作 的 更 多 的 信息 ， 包 括 查 询 语言 、 锁 定 机 制 和 
恢复 等 重要 特征 的 细节 。 经 常 引 用 的 BigTable， 在 Chang 等 人 (2006) 的 文章 中 有 详细 的 叙述 。 
其 他 大 型 的 网 络 公 司 也 建立 了 他 们 自己 的 数据 库 系 统 ， 这 些 系统 都 是 出 于 相似 的 目的 : 为 了 
实现 大 规模 分 布 和 较 高 的 吞吐 率 ， 但 都 没有 明确 的 查询 语言 或 者 详细 的 事务 处 理 来 支持 。 亚 
马 逊 公司 的 Dynamo 系 统 具 有 较 低 的 时 间 延 迟 (DeCandia et al,，2007) ， 雅 虎 使 用 UDB 系 统 来 
存储 大 规模 的 数据 集 (Baeza Yates & Ramakrishnan, 2008), 

我 们 提 到 的 DEFLATE (Deutsch, 1996) 和 LZW (Welch, 1984) 是 特定 的 文档 文本 压缩 
算法 。DEFLATE 是 常见 的 Zip、gzip 和 zlib 压 缩 工具 的 基础 。LZW 是 Unix 的 compress 命 令 的 基 
础 ， 也 可 以 用 于 GIFE、PostScript 和 PDF 格式 文件 的 压缩 。Witten 等 人 (1999) 的 文章 中 ， 提 供 
了 关于 文本 和 图 像 压缩 算法 的 详细 讨论 。 

Hoad 和 Zobel (2003) 对 指纹 技术 进行 了 综述 ， 对 近似 重复 检测 与 基于 词 的 相似 度 计算 方 
法 进行 了 比较 。 他 们 的 评价 侧重 于 查找 文档 的 不 同 版 本 和 抄袭 的 文档 。Bernstein 和 Zobel 
(2006) 提 到 了 使 用 全 指纹 不 进行 选择 ) 查找 相互 衍生 (co-derivative) 的 文档 的 方法 ， 相 
互 往生 是 指 从 相同 的 来 源 衍生 出 来 的 文档 。Bernstein 和 Zobel (2005) 就 重复 文本 的 影响 对 检 
索 效 果 的 评估 进行 了 实验 。 他 们 指出 在 一 次 TREC 评 测 中 ， 相 关 文 档 中 有 15% 是 元 余 的 ， 从 用 
户 的 角度 来 看 ， 这 会 对 结果 产生 很 大 的 影响 。 

Henzinger (2006) 叙述 了 网 络 中 近似 重复 检测 的 大 规模 评价 。 对 Broder 的 “shingling” 
算法 (Broder et al., 1997; Fetterly et al.，2003) 和 simhash (Charikar, 2002) 的 两 种 方法 
进行 了 比较 。Henzinger 的 研究 中 ， 使 用 了 16 亿 .的 网 页 ， 表 明 在 同一 站 点 上 没有 一 种 方法 能 很 
好 地 对 元 余 文 档 进 行 检测 ， 由 于 式样 文本 的 不 断 重复 使 用 ， 使 得 不 同 的 页 面 看 上 去 也 是 相似 
的 。 对 于 不 同 站 点 上 的 页 面 ，simhash 算 法 可 以 得 到 50% 的 准确 率 ( 这 意味 着 ,根据 相似 度 域 
值 确定 的 那些 近似 重复 的 页 面 中 ， 有 50% 是 正确 的 ) ， 而 Broder 算 法 可 以 达到 38% 的 准确 率 。 

关于 从 网 页 中 抽取 内 容 的 方法 ， 在 很 多 文章 中 都 有 介绍 。 加 等 人 (2003) 和 Gupta 等 人 
(2003) 是 关于 这 类 方法 的 很 好 的 文章 。 


练习 


31 假设 有 两 个 文档 集合 ， 较 小 的 集合 中 全 部 都 是 有 用 的 、 正 确 的 、 高 质量 的 信息 。 较 大 的 
集合 中 含有 一 些 高 质量 的 文档 ， 但 还 有 一 些 低 质量 的 、 过 时 的 、 书 写 较 差 的 文本 。 只 对 
较 小 的 集合 建立 搜索 引擎 的 原因 是 什么 ?对 两 个 集合 都 建立 搜索 引擎 的 原因 是 什么 ? 

3.2 假设 有 一 个 网 络 连 接 ， 每 秒 可 以 传输 10MB 的 数据 。 如 果 每 个 网 页 大 小 为 10K， 需 要 500 
毫秒 进行 传输 ， 网 络 朴 虫 需要 多 少 个 线程 才能 完全 利用 网 络 连接 ? RRA 
络 服务 器 发 出 的 不 同 请 求 之 间 需 要 等 待 10 秒 钟 ， 系 统 每 秒 钟 最 少 需要 连接 多 少 台 网 络 服 
务 器 ， 才 能 充分 地 利用 网 络 连接 ? 

3.3 在 信息 采集 过 程 中 ， 使 用 HEAD 请 求 而 不 是 GET 请 求 的 优点 是 什么 ?什么 时 候 爬 虫 需 要 
使 用 GET 请 求 而 不 是 HEAD 请 求 ? 

3.4 扑 虫 为 什么 不 使 用 POST 请 求 ? 

3.5 给 出 本 章 中 提 到 的 组 成 深层 网 络 的 三 种 站 点 类 型 的 名 字 。 
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3.6 


3.7 


3.8 


3.9 


3.10 


3.11 


3.12 


3.13 


3.14 


3.15 


3.16 


为 了 实现 对 深层 网 络 网 页 的 信息 采集 ， 如 何 设计 一 个 系统 ， 能 够 自动 地 将 数据 填写 到 网 
页 表单 中 ? 使 用 什么 样 的 方法 能 保证 慌 虫 的 行为 没有 破坏 性 〈 例 如 ， 不 会 随机 地 增加 博 
客 评 论 ) ? 

编写 一 段 程序 ， 根 据 计 算 机 硬盘 某 个 目录 中 的 内 容 ， 创 建 一 个 有 效 的 网 站 地 图 。 假 设 来 
自 网 站 http://www.example.com 的 文件 都 是 可 存 取 的 。 例 如 ， 目 录 中 有 一 个 文件 
homework.pdf ， 该 文件 在 http://www.example.com/homework.pdf 上 是 可 用 和 的。 在 网 站 地 
图 中 ， 使 用 文件 真实 的 修改 日 期 作为 最 后 修改 的 时 间 ， 并 估计 变化 的 频率 。 

假设 为 了 使 网 页 的 采集 更 快 ， 建 立 了 两 个 信息 采集 机 器 ， 每 个 机 器 中 的 种 子 URL 不 同 。 
这 是 一 个 分 布 式 信 息 采 集 的 有 效 策 略 吗 ? 为 什么 ? 

编写 一 个 简单 的 单线 程 网 络 爬 虫 程序 。 从 单一 的 输入 一 个 URL 地 址 (可 能 是 一 个 教授 的 
个 人 主页 ) 开始 ， 扑 虫 下 载 一 个 网 页 ， 在 下 载 下 一 个 网 页 之 前 ， 至 少 等 待 5 秒 钟 的 了 时间。 
程序 要 能 够 根据 上 次 爬 取 的 文档 中 解析 出 来 的 链接 标签 ， 找 到 其 他 的 页 面 。 

UTF-16 可 以 用 于 Java 和 Windows?。 将 它 和 UTF-8 进 行 比较 。 

BigTable 是 如 何 处 理 硬件 故障 的 ? 

设计 一 个 用 于 压缩 HTML 标签 的 压缩 算法 。 算 法 要 能 够 检测 HIML 文 件 中 的 标签 ， 并 能 
够 使 用 你 设计 的 较 短 的 编码 对 标签 进行 替换 。 编 写 一 个 编码 器 和 解码 器 程序 。 

通过 使 用 Unix 的 cksum 命 令 对 文档 中 的 字 节 进行 加 法 运算 ， 可 以 对 一 个 文档 生成 检验 和 。 
对 文档 进行 编辑 ， 看 两 种 检验 和 是 否 发 生 了 变化 。 对 文档 进行 修改 的 时 候 ， 能 够 使 检验 
和 不 发 生变 化 吗 ? 

编号 一 个 程序 ， 给 文档 生成 simhash 指 纹 。 可 以 对 词 使 用 任意 合理 的 散 列 函数 。 使 用 该 
程序 对 计算 机 上 的 重复 文档 进行 检测 ， 得 出 检测 的 准确 率 。 检 测 的 准确 率 随 着 指纹 大 小 
有 什么 变化 ? 

对 于 一 个 给 定 的 网 页 ， 绘 出 文档 斜率 曲线 。 给 定 的 网 页 中 至 少 包含 一 个 有 新 闻 文 章 的 页 
面 。 测 试 一 下 主要 内 容 块 检测 的 优化 算法 的 准确 率 。 编 写 你 自己 的 程序 ， 或 者 使 用 
http://www.aidanf.net/software/bte-body-text-extraction 上 的 代码 。 对 算法 失效 的 情况 进 
行 说 明 。 在 这 种 情况 下 ， 对 文档 斜率 曲线 中 低 斜 率 区 域 ， 搜 索 的 算法 会 有 效 吗 ? 

对 使 用 DOM 结 构 来 识别 网 页 中 内 容 信 息 的 算法 给 出 一 个 抽象 的 概括 。 特 别 地 ， 对 结构 
中 内 容 和 非 内 容 元 素 进 行 识 别 的 启发 式 方 法 进行 描述 。 





第 4 章 文本 处 理 


我 一 直 在 尝试 理解 这 些 词 的 意思 。 
一 一 Spock, 《星际 迷航 之 最 后 的 边境 》 


4.1 从 词 到 词 项 


获得 希望 搜索 的 文本 后 ， 需 要 决定 是 否 应 该 修改 或 者 重 构 这 些 文本 以 简化 搜索 过 程 ， 这 
称 为 文本 转换 (text transformation) ， 或 者 习惯 地 称 为 文本 处 理 (text processing)。 文 本 处 理 
将 词语 可 能 出 现 的 多 种 形式 转化 为 更 加 一 致 的 索引 项 (index term)。 索 引 项 在 搜索 中 表示 文 
档 内 容 。 

最 简单 的 文本 处 理 是 什么 也 不 做 。 一 个 典型 的 例子 是 文字 处 理 器 的 “查找 ”功能 。 使 用 
查找 功能 的 时 候 ， 需 要 搜索 的 文本 已 经 被 收集 起 来 并 且 呈 现在 屏幕 上 。 当 键入 希望 查找 的 词 
之 后 ， 文 字 处 理 器 扫描 文档 并 精确 匹配 键入 的 词 。 这 个 功能 非常 有 用 ， 因 为 用 户 有 这 个 需求 。 
儿 乎 每 一 个 文本 编辑 器 都 实现 了 这 个 功能 。 

精确 搜索 的 问题 在 于 它 有 很 多 局 限 性 。 其 中 最 苦恼 的 是 ， 它 无 法 解决 大 小 写 敏 感 问题 。 
假设 要 查找 “computer hardware”， 而 文档 中 有 一 个 句子 以 “Computer hardware” 开 始 ， 那 么 
就 无 法 匹配 这 个 句子 ， 原 因 是 查询 的 第 一 个 字母 是 大 写 的 。 幸 和 运 的 是 ， 大 多 数 文字 处 理 器 有 
搜索 时 忽略 大 小 写 的 选项 ， 可 以 认为 这 是 在 线 文 本 处 理 非 常 基本 的 方式 。 像 大 多 数 文本 处 理 
技术 那样 ， 忽 略 大 小 写 增 加 了 在 文档 中 搜索 到 查询 的 可 能 

大 多 数 搜索 引擎 不 区 分 大 小 写 。 不 仅 如 此 ， 它 们 还 做 了 很 多 其 他 的 事情 。 我 们 将 在 本 章 
中 看 到 ， 搜 索引 擎 会 忽略 词 中 的 标点 符号 ， 使 得 它们 更 容易 找到 。 词 素 切 分 (tokenization) 
将 词 串 切 分 成 独立 的 词素 。 为 了 使 查询 处 理 更 有 效 同 时 效率 更 高 ， 有 些 词 可 能 被 完全 忽略 ， 这 
个 过 程 称 为 停 用 词 去 除 (stopping)。 系 统 有 可 能 使 用 词 干 提取 (stemming) ， 从 而 允许 相似 的 
ia) (如 “ron” 和 “running”) 互相 匹配 。 有 些 文档 如 网 页 中 可 能 包含 格式 改变 (如 粗 体 或 字体 
增 大 ) ， 或 者 明显 的 结构 (structure， 如 标题 、 章 节 )， 这 些 也 可 以 被 系统 利用 。 网 页 中 包含 的 
指向 其 他 网 页 的 链接 ， 可 以 用 来 提高 文档 排序 的 性 能 。 上 述 的 所 有 方法 都 将 在 本 章 中 讨论 。 

这 些 文本 处 理 技 术 非 常 简单 ， 但 是 它们 对 搜索 结果 影响 很 大 。 而 且 这 些 技术 不 涉及 复杂 
的 文本 推理 和 理解 。 搜 索引 擎 行 之 有 效 的 原因 ， 是 文本 的 很 多 含义 通过 词语 出 现 和 共 现 9 的 
次 数 获 得 ， 尤 其 当 数 据 是 从 网 络 上 的 大 量 文 本 集合 收集 而 来 的 。 由 于 理解 文本 的 统计 性 质 是 
理解 检索 模型 和 排序 算法 的 基础 ， 因 此 本 章 首先 讨论 文本 统计 (text statistics)。 自 然 语言 处 
理 (natural language processing) 更 复杂 的 技术 涉及 文本 的 句法 和 语义 分 析 ， 以 及 它们 在 信息 
检索 上 的 应 用 。 虽 然 人 们 对 此 已 经 研究 了 数 十 年 ， 但 是 目前 它们 对 搜索 引擎 排序 算法 的 影响 
很 小 。 第 11 章 会 介绍 这 些 技 术 如 何 应 用 于 问答 任务 。 另 外 ， 更 复杂 的 文本 处 理 技术 也 被 用 来 

日 ”词语 共 现 衡量 词组 (通常 为 词 对 ) 在 文档 集合 中 共同 出 现 的 次 数 。 如 果 一 对 、 一 组 或 者 一 个 序列 的 词语 共 

现 的 次 数 比 预料 的 多 ， 则 称 之 为 搭配 (collocation)。 第 6 章 中 讨论 使 用 词 项 关联 度量 (term association 
measures) 获取 搭配 。 
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为 搜索 过 程 识别 额外 的 索引 项 和 特征 。 本 章 也 会 讨论 一 些 信息 抽取 (information extraction) 
技术 ， 如 识别 人 名 、 组 织 名 、 地 址 以 及 很 多 其 他 特殊 类 型 的 特征 。 分 类 (classification) 可 以 
用 来 识别 语义 类 别 ， 将 在 第 9 章 中 讨论 。 

最 后 ， 虽 然 本 书 关注 英语 文档 的 检索 ， 但 是 信息 检索 技术 本 身 可 以 应 用 于 很 多 不 同 的 语 
言 。 本 章 也 会 介绍 不 同 语言 需要 哪些 不 同 的 文本 表示 和 处 理 。 


4.2 文本 统计 


尽管 语言 非常 丰富 并 且 变化 繁多 ， 但 仍然 是 很 容易 预见 的 。 描 述 一 个 特定 话题 或 事件 的 
方式 很 多 ， 但 是 如 果 对 描述 一 件 事 时 使 用 的 词 进 行 计 数 ， 那 么 某 些 词 出 现 的 频率 远 高 于 其 他 
词 。 有 些 高 频 词 在 描述 任何 事件 时 都 是 常见 的 ， 例 如 “and” 和 “the”。 但 是 其 他 的 高 频 词 是 
特定 事件 所 特有 的 。Luhn 于 1958 年 发 现 了 这 个 现象 ， 他 提出 一 个 词 的 重要 性 取决 于 它 在 文档 
中 出 现 的 频率 。 词 语 出 现 规律 的 统计 模型 在 信息 检索 中 很 重要 ， 应 用 于 搜索 引擎 的 许多 核心 
组 成 部 分 中 ， 如 排序 算法 、 查 询 转换 和 索引 技术 。 这 些 模型 将 会 在 后 续 的 章节 讨论 ， 在 此 只 
介绍 一 些 统计 词语 出 现 的 基本 模型 。 

从 统计 角度 看 ,文本 最 明显 的 特征 之 一 是 词语 频率 的 分 布 非常 倾斜 (skewed)。 一 些 词 的 
出 现 频率 很 高 ， 而 很 多 词 的 出 现 次 数 很 少 。 事 实 上 ， 英 语 最 高 频 的 2 个 词 (“the” 和 “of”) 占 
了 所 有 词 出 现 次 数 的 10% 左 右 ， 晤 高 频 的 6 个 词 占 了 20%， 最 高 频 的 50 个 词 约 占 了 40%。 另 一 
方面 ， 在 一 个 大 规模 文本 集中 ， 通 常 词 表 中 约 一 半 的 词 只 出 现 一 次 。 齐 普 夫 法 则 (Zipf's 
Law) 8 描述 了 这 种 分 布 ， 它 指出 第 高 频 的 词 的 出 现 次 数 与 r 成 反比 ， 或 者 说 ， 一 个 词 在 词 频 
统计 表 中 的 排名 乘 以 它 的 词 频 C) 约 等 于 一 个 常数 (k): 

r-f=k 

本 章 经 常 提 到 一 个 词 出 现 的 概率 正好 等 于 这 个 词 的 出 现 次 数 除 以 所 有 词 在 文本 中 出 现 次 

数 的 总 和 。 这 样 ， 章 普 夫 法 则 可 以 表示 为 : 


r: P,=c 


其 中 P, 表 示 第 r 高 频 词 出 现 的 概率 ，c 是 一 个 常数 。 对 于 英语 而 言 ，c ~ 0.1。 图 4-1 给 出 了 
含有 这 个 常数 的 齐 普 夫 法 则 。 图 中 很 清楚 地 说 明了 在 最 高 频 的 几 个 词 之 后 ， 词 的 出 现 频率 迅 
速 下 降 。 


以 美 联 社 1989 年 新 闻 报 道 集 ( 称 为 AP89) 为 表 4 AP89 中 的 统计 信息 
例 ， 测 试 齐 普 夫 法 则 在 真实 文本 集合 上 预测 词语 Ax 84 678 
出 现 次 数 的 准确 程度 。AP89 多 年 来 一 直 被 用 于 总 四 间 出 现 次 数 39 749 179 
TREC 评 测 。 表 4-1 列 出 了 AP89 中 词语 出 现 次 数 的 e ao looo tie 
一 些 统计 结果 。 尽 管 AP89 的 规模 很 小 ， 它 包含 的 出 现 1 次 的 词 70 064 


词汇 量 却 很 大 〈 近 200 000 个 不 同 的 词 )。 其 中 很 大 

比例 的 词 (70 000) 只 在 语 料 中 出 现 一 次 。 长 时 间 以 来 ， 人 们 一 直 认 为 在 一 个 文本 语料库 或 者 书 

中 ， 只 出 现 一 次 的 词语 对 于 文本 分 析 很 重要 ， 并 且 给 它 起 了 一 个 特殊 的 名 字 Hapax Legomena® 。 
日 ”为 纪念 美国 语言 学 家 George Kingsley Zipf 而 命名 。 


O 命名 来 自 于 研究 圣经 的 学 者 。 人 们 从 13 世 纪 开 始 研究 圣经 中 词 的 出 现 ， 对 词 出 现 的 位 置 建立 索引 
(concordance)。 索 引 是 现代 搜索 引擎 使 用 的 倒 排 文件 的 祖先 。 据 说 第 一 部 索引 由 500 个 僧 倡 完成 。 
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图 4-1 假设 齐 普 夫 法 则 (次 数 排名 x 概率 =0.1) 时 词 出 现 的 次 数 排名 与 概率 的 对 比 
表 4-2 罗 列 了 AP89 中 前 50 个 高 频 词 ， 包 括 它们 的 频率 、 排 名 r、 出 现 概 率 (转化 为 占 总 共 出 现 
次 数 的 百分比 P,) 以 及 r : P 值 。 从 表 中 可 以 发 现 齐 普 夫 法 则 是 非常 准确 的 ，r. P, 值 近似 等 于 一 
个 接近 0.1 的 常数 。 对 于 一 些 高 频 词 ， 齐 普 夫 法 则 出 现 了 最 大 的 差错 。 事 实 上 ， 齐 普 夫 法 则 通常 
对 排名 靠 前 和 排名 靠 后 (高 频 词 和 低频 词 ) 的 预测 不 准确 。 表 4-3 给 出 一 些 AP89 中 低频 词 的 例子 。 


表 4-2 AP89 中 最 高 频 的 50 个 词 





2 420 778 1 6.49 0.065 has 136 007 
of 1 045 733 2 2.80 0.056 are 130 322 27 0.35 0.094 
to 968 882 3 2.60 0.078 not 127 493 28 0.34 0.096 
a 892 429 4 2.39 0.096 who 116 364 29 0.31 0.090 
and 865 644 5 2.32 0.120 they 111 024 30 0.30 0.089 
in 847 825 6 2.27 0.140 its 111 021 31 0.30 0.092 
said 504 593 7 1.35 0.095 had 103 943 32 0.28 0.089 
for 363 865 8 0.98 0.078 will 102 949 33 0.28 0.091 
that 347 072 9 0.93 0.084 would 99 503 > 34 0.27 0.091 
was 293 027 10 0.79 0.079 about 92 983 35 0.25 0.087 
on 291 947 11 0.78 0.086 i 92 005 36 0.25 0.089 
he 250 919 12 0.67 0.081 been 88 786 37 0.24 0.088 
is 245 843 13 0.65 0.086 this 87 286 38 0.23 0.089 
with 223 846 14 0.60 0.084 their 84 638 39 0.23 0.089 
at 210 064 15 0.56 0.085 new 83 449 40 0.22 0.090 
by 209 586 16 0.56 0.090 or 81 796 41 0.22 0.090 
it 195 621 17 0.52 0.089 which 80 385 42 0.22 0.091 
from 189 451 18 0.51 0.091 we 80 245 43 0.22 0.093 
as 181 714 19 0.49 0.093 more 716 388 44 0.21 0.090 
be 157 300 20 0.42 0.084 after 75 165 45 0.20 0.091 
were 153 913 21 0.41 0.087 us 72 045 46 0.19 0.089 
an 152 576 22 0.41 0.090 percent 71 956 47 0.19 0.091 
have 149 749 23 0.40 0.092 up 71 082 48 . 0.19 0.092 
his 142 285 24 0.38 . 0.092 one 70 266 49 0.19 0.092 
but 140 880 25 0.38 0.094 people 68 988 50 0.19 0.093 
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PAG 
表 4-3 AP89 中 的 一 些 低频 词 
词 频率 r P%) r-P, 
assistant 5095 1 021 0.013 0.13 
sewers 100 17 110 0.000256 0.04 
toothbrush 10 51 555 0.000025 0.01 
hazmat 1 166 945 0.000002 0.04 





图 4-2 呈 现 了 AP89 中 所 有 词 的 r. P, 值 的 log-log 图 S 。 由 于 P,=log(c : r')=oge—logr, Erp 
齐 普 夫 法 则 呈现 为 一 条 直线 。 图 中 清晰 地 显示 了 当 排 名 靠 后 (大约 排 名 10 000 以 后 ) 时 ， 章 
普 夫 法 则 预测 不 准确 。 许 多 齐 普 夫 法 则 的 修正 方法 被 提 了 出 来 Se， 其 中 一 些 和 语言 认 知 模型 
有 有 趣 的 联系 。 

使 用 齐 普 夫 法 则 ， 给 出 词 频 可 以 推导 出 一 个 简单 的 公式 来 预测 词 的 比例 。 出 现 n 次 的 词 的 
排名 为 r=k/n。 通 常 来 讲 ， 一 些 词 的 词 频 有 可 能 相同 。 假 设 词 频 为 x 的 词 集 的 最 后 一 个 的 排名 
为 r.。。 这 样 ， 词 频 为 x 的 词 集 的 规模 为 r,r,,!,， 即 由 词 频 为 x 的 词 集中 最 后 一 个 的 排名 减 去 词 频 
较 高 的 词 集 中 最 后 一 个 的 排名 (注意 高 频 词 的 排名 靠 前 )。 例 如 ， 表 4-4 中 的 例子 以 词 频 下 降 
的 顺序 给 出 词 的 排名 。 词 频 为 5099 的 词 的 个 数 可 以 由 词 集 最 后 一 个 “chemical” 的 排名 减 去 
词 频 稍 高 一 些 的 词 集中 最 后 一 个 “summit” 的 排名 得 到 1006 一 1002=4。 





1 10 100 1000 10000 100000 16+006 


HEA 
图 4-2 齐 普 夫 法 则 与 AP89 真 实数 据 对 比 的 log-log 图 。 当 排名 较 大 时 ， 章 普 夫 法 则 的 预测 很 不 准确 


给 出 词 频 为 x 的 词 的 个 数 为 1 一 rsn=k/n 一 k(n+1)=K/n(n+1)， 那 么 这 些 词 所 占 的 比例 可 以 通过 
这 个 数 除 以 所 有 不 同 词 的 个 数 得 到 。 所 有 不 同 词 的 个 数 即 词 频 为 1 的 词 集中 最 后 一 个 的 排名 。 
词 表 中 最 后 一 个 词 的 排名 为 #1=k。 因 此 词 频 为 的 词 占 的 比例 为 n(n+1)。 例 如 ， 这 个 公式 预 


© ”log-log 图 中 ，x 轴 和 y 轴 的 刻度 表示 x 和 y 的 对 数 ， 而 非 x 和 y 本 身 。 
全 ”最 有 和 名 的 变形 由 数学 家 Benoit Mandelbrot (分 形 几何 之 父 ) EH., ARAA- 已 =y， 其 中 参数 8、c 和 7 
可 以 针对 特定 文本 进行 调整 。 然 而 在 AP89 上 ， 这 个 方法 没有 明显 比 齐 普 夫 法 则 好 。 
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测 词 表 中 一 半 的 词 只 出 现 一 次 。 表 4-5 将 这 个 公式 的 预测 结果 与 来 自 TREC 另 外 一 个 语 料 集合 
的 真实 数据 进行 了 比较 。 
表 4-4 词 频 排 名 的 例子 








HEA ial 词 频 
1000 concern 5 100 
1001 spoke 5 100 
1002 summit 5 100 
1003 bring 5 099 
1004 star 5 099 
1005 immediate 5 099 
1006 chemical 5 099 
1007 african 5 098 





4-5 来 自 TREC 第 3 卷 语料库 的 336 310 个 文档 中 出 现 n 次 的 
词 在 文本 中 所 占 的 比例 。 词 汇 量 总 数 为 508 209 





出 现 次 数 (n) 预测 比例 (1/n(n+1)) 真实 比例 真实 的 词 数 
1 0.500 0.402 204 357 
2 0.167 0.132 67 082 
3 0.083 0.069 35 083 
4 0.050’ 0.046 23 271 
5 0.033 0.032 16 332 
6 0.024 0.024 12421 
7 0.018 0.019 9766 
8 0.014 0.016 8 200 
9 0.011 0.014 6 907 
10 0.009 0.012 5 893 
4.2.1 词 表 增长 


与 词 的 出 现 次 数 相关 的 另 一 种 有 用 的 预测 是 词 表 增长 (vocabulary growth)。 随 着 语 料 规 
模 增 大 ， 新 词 不 断 出 现 。 基 于 词 的 齐 普 夫 法 则 分 布 假设 可 以 预测 ， 随 着 语 料 规模 增 大 ， 一 定 
规模 新 文本 中 含有 的 新 词 的 数目 减少 。 然 而 ， 不 断 出 现 的 新 词 来 源 于 新 造 的 词 ( 药 名 和 刚 起 
步 的 公司 名 )、 拼 写 错误 、 产 品 号 码 、 人 名 、 邮 件 地 址 等 等 。Heaps (1978) 观察 发 现 ， 语 料 
规模 与 词 表 大 小 的 关系 为 : 


v=k - ns 


其 中 v 为 词汇 量 大 小 ， 语 料 中 共有 n 个 词 ，k 和 PB 是 随 不 同 语 料 变化 的 参数 。 这 个 公式 有 时 称 为 
Heaps 法 则 。 一 般 k 和 PB 满足 和 10<k<100 和 p = 0.5。Heaps 法 则 预测 当 语 料 规模 很 小 时 ， 新 词 
数量 增长 非常 快 。 随 着 语 料 规模 变 大 ， 新 词 数 量 无 限 增长 ， 但 是 增长 速度 会 变 慢 。 图 4-3 比 较 
了 AP89 中 词汇 的 增长 和 Heaps 法 则 当 k=62.95 和 B=0.455 时 的 结果 。 很 明显 ，Heaps 法 则 拟 合 效果 
很 好 。 对 于 很 多 其 他 TREC 新 闻 语 料 集合 ， 参 数值 是 类 似 的 。 举 一 个 预测 精确 度 的 例子 ， 分 析 
完 AP89 的 前 10 879 522 个 词 之 后 ，Heaps 法 则 预测 的 词 表 长 度 为 100 151， 而 真实 值 为 100 024, 
当 只 分 析 过 很 少 的 词 的 时 候 (<1000)，Heaps 法 则 对 词 表 长 度 的 预测 精确 度 要 差 很 多 。 


ki 
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APSO 
Heaps 62.95, 0.455 





0 Se+006 1e+007 1.5e+007 2e+007 2.58+007 38+007 3.5e+007  4e+007 
语 料 集中 的 词 
图 4-3 TREC AP89 词 表 增长 与 Heaps 法 则 预测 结果 比较 

网 络 量 级 的 语 料 比 AP89 的 规模 大 很 多 。AP89 共 包含 约 4000 万 词 ， 而 TREC 网 络 语 料 
GOV2° (相对 较 小 规模 ) 包含 200 亿 以 上 词 。 当 词 的 数目 达到 这 个 程度 时 ， 似 乎 新 词 的 数目 
将 最 终 跌 到 接近 零 ， 从 而 Heaps 法 则 不 再 适用 。 结 果 表 明 情 况 不 是 这 样 的 。 图 4-4 给 出 了 GOV2 
的 词 表 增 长 和 Heaps 法 则 当 k=7.34 和 p=0.648 的 预测 结果 。 数 据 显示 即使 当 词 数 超过 3000 万 词 
表 ， 仍 然 继 续 稳步 增长 。 这 对 搜索 引擎 的 设计 有 很 大 的 影响 ， 对 此 将 会 在 第 5$ 章 中 讨论 。 
Heaps 法 则 在 GOV2 上 拟 合 得 很 好 ， 然 而 参数 值 与 其 他 TREC 语 料 使 用 的 参数 有 很 大 的 不 同 。 


4.5e+007 


GOV2 
Heaps 7.34, 0.648 ------- 
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语 料 集中 的 词 
图 4-4 TREC GOV2 词 表 增 长 与 Heaps 法 则 结果 比较 


昌 ”2004 年 初 从 属于 .gov 域 名 的 网 页 中 的 取 。 详 情 请 见 8.2 节 。 
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4.2.2 估计 数据 集 和 结果 集 大 小 
统计 词语 出 现 也 可 以 用 于 估计 网 络 搜索 结果 的 规模 。 所 有 网 络 搜索 引擎 都 有 类 似 于 图 4-5 


中 的 查询 界面 。 给 出 查询 内 容 (此 例 中 为 [tropical fish 1 aquarium o O _ | 
“tropical fish aquarium”) 后 ， 搜 索引 警 在 输 Web results page 1 of 3,880,000 results 
出 排序 后 的 结果 之 前 ， 会 立刻 给 出 查询 结果 图 4-5 网 络 搜索 结果 数量 估计 


总 数 的 估计 值 。 通 常 这 是 一 个 很 大 的 数目 ， 
搜索 引擎 系统 一 般 都 指出 这 只 是 估计 值 。 

为 了 估计 结果 数量 ， 首 先 需要 定义 “结果 "。 在 估计 结果 数量 时 ， 一 个 结果 指 包括 所 有 查 
询 词 的 任何 文档 (或 者 网 页 )。 有 些 搜索 应 用 系统 对 文档 排序 时 ， 还 包括 了 只 含有 一 部 分 查询 
词 的 文档 。 但 是 考虑 到 网 络 的 巨大 规模 ， 这 样 做 通常 是 没有 必要 的 。 如 果 假 设 词 的 出 现 彼此 
独立 ， 那 么 一 个 文档 包括 所 有 查询 词 的 概率 就 简单 地 等 于 文档 包含 各 个 查询 词 的 概率 的 乘积 。 
例如 ， 如 果 查 询 中 包含 三 个 词 a、b 和 c， 那 么 、 

P(añbN c) = P(a): P(b): P(c) 


其 中 Penenoc) 是 联合 概率 ， 或 者 所 有 三 个 词 在 文档 中 出 现 的 概率 。 而 Pla)、P(p) 和 PCc) 是 每 
一 个 词 在 文档 中 出 现 的 概率 。 搜 索引 擎 总 是 可 以 得 到 一 个 词 出 现 过 的 文档 的 数目 (fs、 和 
J) SS， 以 及 集合 中 包含 的 文档 总 数 。 因 此 这 些 概率 可 以 很 容易 地 估计 : PASAN, PSAN, 
P(c)=f4N。 这 样 可 以 得 到 : 

fase =N SIN RIN FIN = (ff LIN? 


其 中 fi 是 结果 数量 的 估计 值 。 


表 4-6 GOV2 网 络 语 料 中 文档 出 现 频率 以 及 词语 组 合 的 估计 文档 出 现 频率 
(假设 互相 独立 ) 。 语 料 规模 (N) 为 25 205 179 













文档 频率 
120 990 


估计 频率 





tropical tropical breeding 


fish 1 131 855 fish aquarium 9 722 1189 
aquarium 26 480 fish breeding _ 36427 3677 
breeding 81 885 aquarium breeding "11 848 86 
tropical fish 18472 — § 433. tropical fish aquarium . 1529 6 


tropical aquarium 1921 tropical fish breeding 





34-644 H [TREC GOV2MAiB RG “tropical”, “fish”, “aquarium” #1 “breeding” AY 
文档 出 现 频率 ， 以 及 这 些 词 语 组 合 的 文档 出 现 频率 。 同 时 ， 基 于 独立 假设 ， 表 中 还 列 出 了 这 
些 组 合 的 估计 频率 。 很 明显 ， 这 种 独立 假设 导致 对 结果 规模 估计 不 准确 ， 尤 其 是 三 个 词 的 组 
合 。 问 题 在 于 组 合 中 的 词语 在 文档 中 的 出 现 不 互相 独立 。 例 如 ， 一 个 文档 包含 词语 “fish”， 
那么 它 比 另 一 个 不 包含 “fish” 的 文档 更 有 可 能 包含 “aquarium”。 

如 果 搜 索引 擎 含有 词语 的 共 现 信息 ， 那 么 对 结果 规模 的 估计 可 以 惕 准确 。 显 然 对 于 含有 
两 个 词 的 查询 ， 这 样 做 可 以 给 出 真实 的 值 。 对 于 更 长 的 查询 ， 不 假设 独立 性 可 以 提高 估计 的 


日 ”注意 这 些 是 文档 出 现 频率 (document occurrence frequencies) ， 而 非 词语 出 现 的 总 数 (一 个 文档 中 一 个 词 
可 能 出 现 多 次 )。 
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w 


准确 度 。 通 常 对 于 三 个 词 ， 
P(aNbNc) = P(aNb): P(cl(aNb)) 


其 中 Planm 刀 是 词语 s 和 2 是 在 文档 中 共 现 的 概率 ，Ptc1teann bb) 是 as 和 2 都 在 一 个 文档 中 出 现 的 
情况 下 ，c 也 在 这 个 文档 中 出 现 的 概率 9。 如 果 有 共 现 信息 ， 可 以 使 用 Plcla) 或 Plclb) 较 大 的 值 
估计 这 个 概率 。 以 表 4-6 中 的 查询 “tropical fish aquarium” 为 例 ， 这 意味 将 “tropical” 和 
“aquarium” 同 时 出 现 的 文档 数 乘 以 一 个 文档 同时 包含 “aquarium” 和 “fish” 的 概率 ， 从 而 
获得 结果 集合 的 估计 数量 ， 或 者 表示 为 ， 


Sropicalt fish aquarium = f tropicalNaquarium ` Í fishMaquarium If aquarium 


= 1921-9722 /26480 = 705 
类 似 地 ， 对 于 查询 “tropical fish breeding” : 


Ía tropicalN fishNbreeding 一 Í tropicalNbreeding T fish breeding / foreeaing 
=5510:36427/81885 = 2451 

这 些 估计 比 假设 互相 独立 得 到 的 估计 值 好 得 多 ,但 是 仍然 太 慢 了 。 结 果 表 明 ， 无 需 存 储 
更 多 的 信息 ， 比 如 词语 三 元 组 的 出 现 次 数 ， 而 只 使 用 词 频 和 当前 (current) 结果 集合 大 小 ， 
便 可 以 获得 合理 的 结果 集合 大 小 估计 。 搜 索引 擎 估计 结果 集合 大 小 的 原因 是 它们 不 对 所 有 包 
含 查询 词 的 文档 进行 排序 。 相 反 ， 它 们 只 对 最 相关 的 很 小 一 部 分 文档 进行 排序 。 如 有 果 知 道 被 
排序 的 文档 在 所 有 文档 所 占 的 比例 (s) 和 包含 所 有 查询 词 的 文档 数量 (C)， 这 时 假定 包含 所 
有 查询 词 的 文档 分 布 均 匀 人 S ， 从 而 可 以 将 结果 集合 大 小 简单 估计 为 Cls。 被 处 理 文档 所 占 的 比 
例 可 以 由 包含 查询 中 最 低频 词 的 文档 被 处 理 的 比例 来 衡量 ， 因 为 所 有 的 结果 必须 包含 那个 词 。 

例如 ， 如 果 在 Galago 搜 索引 擎 中 使 用 查询 “tropical fish aquarium” 对 GOV2 文 档 集 进 行 排 
序 。 共 有 26 480 个 文档 包含 “aquarium”， 处 理 其 中 的 3000 个 文档 之 后 ， 共 有 258 个 文档 包含 
所 有 的 查询 词 。 那 么 结果 数量 估计 为 258/(3000/26 480)=2 277。 处 理 完 超过 20% 的 文档 时 ， 估 
计 值 为 1778 (真实 值 为 1529)。 对 于 查询 “tropical fish breeding”, 处 理 完 含 有 “breeding” 的 
文档 中 的 10% 和 20% 后 ,估计 和 值 分 别 为 4076 和 3762 (真实 值 为 3629)。 这 些 估计 值 非常 准确 ， 
并 且 不 需要 集合 中 文档 的 总 数目 。 

事实 上， 估计 搜索 引擎 中 存储 的 文档 总 数目 对 于 学 术 界 〈 网 络 有 多 大 ) 和 企业 界 (哪个 
搜索 引擎 对 网 络 覆 盖 面 大 ) 都 意义 重大 。 有 很 多 研究 这 种 技术 的 论文 ， 其 中 一 篇 是 基于 以 前 
用 到 的 词语 互相 独立 的 概念 。 如 果 c 和 2 是 两 个 互相 独立 出 现 的 词 ， 那 么 

f,/N=f,/N-f,IN 


以 及 
N=( 广 轧 / 记 


为 了 得 到 N 的 合理 估计 值 ， 这 两 个 词 应 该 互相 独立 。 从 表 4-6 中 的 例子 观察 得 知 ， 实 际 并 
非 如 此 。 可 以 更 小 心地 园 择 查询 词 。 例 如 使 用 “lincoln”(GOV2 中 的 文档 频率 为 771 326), 
可 以 预计 与 表 4-6 中 的 词 对 相 比 ， 查 询 “tropical lincoln” 中 的 词 更 加 互相 独立 (因为 这 个 查询 

日 ” 称 为 条 件 概率 。 


” 晶 ” 在 此 假设 同时 处 理 文档 (document-at-a-time)， 即 同时 处 理 所 有 查询 词 的 倒 排 列 玫 ， 从 而 给 出 完整 的 文档 
分 值 (参见 第 5 章 ) 。 
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中 的 词义 上 联系 更 少 )。GOV2 中 “tropical lincoln” 的 文档 频率 为 3 018， 这 意味 着 可 以 估计 
集合 大 小 为 N = (120 990 . 771 326)/3 018=30 992 045。 这 与 实际 值 25 205 179 非 常 接近 。 


4.3 文档 解析 
4.3.1 概述 

文档 解析 的 目的 是 识别 文本 文档 的 内 容 和 结构 。 大 多 数 文 档 中 主要 的 内 容 是 词 ， 上 一 节 
对 词 进行 计数 并 且 使 用 齐 普 夫 分 布 进行 建 模 。 从 文档 的 字符 序列 中 识别 每 个 词 的 过 程 称 为 词 
素 切 分 或 者 词法 分 析 (lexical analysis) 。 除 了 词 ， 文 档 中 还 有 很 多 其 他 类 型 的 内 容 ， 如 元 
数据 、 图 片 、 图 表 、 代 码 和 表格 。 如 第 2 章 所 述 ， 元 数据 是 文本 内 容 之 外 的 文档 信息 。 元 数 
据 内 容 包 插 文 档 属 性 ， 如 日 期 、 作 者 ， 以 及 最 重要 的 是 ， 标 记 语 言 (markup language) 中 
使 用 的 用 以 识别 文档 组 成 部 分 的 标签 (tag ) 。 最 流行 的 标记 语言 是 超 文 本 标记 语言 
(Hypertext Markup Language, HTML) 和 可 扩展 标记 语言 (Extensible Markup Language, 
XML), 

基于 标记 语言 的 语 靶 (语法 分 析 ) ， 解 析 器 使 用 标签 和 其 他 文档 中 的 元 数据 来 解析 文档 的 
结构 ， 产 生 包含 结构 和 内 容 的 文档 表示 。 例 如 ， 一 个 HTML 解析 器 对 一 个 使 用 HTML 标 签 的 网 
页 进行 结构 解析 ， 将 网 页 表示 成 文档 对 象 模型 (Document Object Model, DOM) ， 提 供给 网 络 
浏览 器 使 用 。 在 搜索 引 敬 中， 文档 解析 器 的 分 析 结 果 是 文档 的 结构 和 内 容 表 示 ， 用 以 构建 索 
引 。 由 于 索引 需要 能 够 表示 集合 中 的 每 一 个 文档 ， 因 此 文档 解析 器 要 比 其 他 应 用 中 使 用 的 解 
析 器 具有 更 强 的 句法 容错 性 。 

讨论 文档 解析 的 第 一 部 分 主要 关注 识别 构成 文档 内 容 的 词素 、 词 、 短 语 。 其 他 部 分 分 别 
讨论 与 文档 结构 相关 的 重要 话题 ， 如 标记 、 链 接 以 及 从 文本 内 容 中 抽取 结构 。 
4.3.2 词素 切 分 

词素 切 分 是 指 从 文档 中 的 字符 序列 中 获取 词 的 过 程 。 这 在 英语 中 似乎 很 简单 。 在 很 多 早 
期 的 系统 中 ， 一 个 词 (word) 定义 为 长 度 为 3 或 者 更 多 ， 并 且 以 空格 或 其 他 特殊 字符 结束 的 字 
母 数字 串 。 所 有 的 大 写字 母 被 转化 为 小 写 9 。 这 意味 着 ， 以 下 面 文本 为 例 : 

Bigcorp's 2007 bi-annual report showed profits rose 10%. 
将 会 产生 如 下 的 标记 序列 : 

bigcorp 2007 annual report showed profits rose 

这 种 简单 的 词素 切 分 过 程 足以 应 付 小 规模 的 测试 集合 。 但 是 对 于 大 多 数 搜索 应 用 或 者 
TREC 集 合 上 的 实验 ， 由 于 丢掉 了 太 多 的 信息 ， 这 样 做 就 不 适合 了 。 下 面 举 一 些 例子 说 明 词 素 
切 分 对 于 搜索 的 有 效 性 有 很 大 影响 。 

。 短 小 的 词 (一 个 或 两 个 字符 ) 在 一 些 查 询 中 可 能 很 重要 。 它 们 通常 与 其 他 词 结合 起 来 。 

than, xp, ma, pm, ben e king, el paso. master p, gm, jlo, world warll ©, 

。 对 于 很 多 词 ， 带 连 字符 和 不 带 连 字符 的 形式 都 很 普遍 。 有 些 情况 下 ， 连 字符 不 需要 。 比 

如 ，e-bay、wal-mart、active-x、cd-rom、t-shirts。 而 其 他 情况 下 ， 连 字符 应 该 被 认为 是 


念 ” 有 时 称 之 为 大 小 写 折 和 登 (case folding)、 大 小 写 规范 化 (case normalization) 或 者 小 写 转 化 (downcasing)。 
© ”这些 和 其 他 例子 从 一 个 网 络 查询 的 小 样本 中 得 到 。 


54  «¥g4¢ 


词 的 一 部 分 或 者 词 的 分 隔 符 。 比 如 ，winston-salem、mazda rx-7, e-cards, pre-diabetes, 

t-mobile, spanish-speaking 。 

。 标 签 、URL、 代 码 〈code) 及 文档 的 其 他 重要 部 分 必须 正确 解析 。 对 于 它们 ， 特 殊 符号 

是 很 重要 的 组 成 部 分 。 

。 大 写 的 词 可 能 与 小 写 的 词 的 意义 不 同 ， 比 如 “Bush” 和 “Apple”。 

。 撒 号 “，” 可 能 是 词 的 一 部 分 、 所 有 格 的 一 部 分 ， 或 者 仅仅 是 一 个 错误 。 比 如 ，rosie 
o’donnell、 can’t, don’t、80’”s、1890’s、men’s straw hats, master’s degree, england’s 
ten largest cities, shriner’s, 

。 数 字 ， 包 括 带 小 数 的 数 有 可 能 很 重要 。 比 如 ，nokia 3250, top 10 courses, united 93, 
quicktime 6.5 pro, 92.3 the beat, 288358 (这 是 一 个 真正 的 查询 ， 它 表示 专利 号 ) 。 

*。 名 点 可 能 出 现在 数字 、 简 称 、URL、 名 子 末 尾 和 其 他 情形 中 。 

从 这 些 例子 可 以 看 出 ， 词 素 切 分 比 最 先 表现 得 更 复杂 。 这 些 例子 来 自 于 查询 的 事实 也 强 
调 了 用 于 文档 和 用 于 查询 的 文本 处 理 必须 一 致 。 如 果 不 一 致 的 话 ， 很 多 文档 的 索引 项 不 会 匹 
配 查 询 中 对 应 的 词 项 。 检 索 失 败 很 快 会 让 词素 切 分 不 一 致 产生 的 错误 变 得 很 明显 。 

为 了 包含 各 种 语言 处 理 技术 ， 以 保证 有 效 的 匹配 ， 词 素 切 分 过 程 应 该 简单 而 灵活 。 一 种 
方法 是 利用 第 一 遍 词素 切 分 先 识别 文档 标记 或 标签 。 可 以 使 用 一 个 专门 针对 特定 标记 语言 
(如 HTML) 的 解析 器 做 这 件 事 。 如 前 面 所 提 到 的 ， 解 析 器 应 该 能 够 容忍 句法 错误 ， 接 下 来 便 
可 以 对 文档 结构 中 合适 的 部 分 进行 第 二 遍 词素 切 分 。 这 一 步 将 会 忽略 文档 中 与 搜索 无 关 的 部 
分 ， 如 包括 HTML 代 码 的 内 容 。 

考虑 到 文档 文本 中 几乎 所 有 的 内 容 都 可 能 对 查询 意义 重大 ， 因 此 词素 切 分 规则 必须 将 绝 
大 多 数 内 容 转 化 为 可 搜索 的 标记 。 一 些 更 难 的 问题 ， 如 识别 词语 的 变形 、 名 字 或 日 期 ， 可 以 
在 其 他 独立 的 步骤 中 处 理 ( 词 干 提取 、 信 息 抽取 和 查询 转换 )， 而 不 是 让 词素 切 分 器 完成 所 有 
的 事情 。 信 息 抽取 通常 将 完整 的 文本 作为 输入 ， 包 括 大 写 和 标点 符号 ， 因 此 这 些 信 息 应 该 保 
留 下 来 直到 抽取 工作 完成 。 除 了 这 一 点 限制 ， 大 写 对 于 搜索 来 说 非常 的 重要 ， 而 在 索引 过 程 
中 可 以 将 文本 转化 为 小 写 。 这 并 不 意味 着 查询 中 不 会 使 用 大 写 的 词 。 事 实 上 ， 在 查询 中 大 写 
经 常用 到 。 而 在 有 些 查 询 中 ， 大 写 并 不 能 减少 歧义 ， 从 而 不 会 影响 检索 的 有 效 性 。 一 些 例 子 
经 常 使 用 “Apple”( 在 实际 中 并 不 常见 ) ， 这 个 问题 可 以 通过 查询 重 构 (query reformulation) 
( 见 第 6 章 ) 或 者 简单 使 用 最 普遍 的 网 页 ( 见 4.5 节 ) 来 解决 。 

如 果 决 定 在 其 他 步骤 中 处 理 复 厅 的 问题 ， 那 么 最 一 般 的 做 法 是 将 连 字符 、 撤 号 和 人 句点 看 
作词 的 结束 标记 〈 如 空格 ) 。 对 所 有 生成 的 标记 建 索引 是 很 重要 的 ， 包 括 单字 符 的 标记 如 “s” 
和 “o”。 举 例 来 讲 ， 这 意味 着 查询 9 “o'connor” 等 价 于 “o connor”, “bob’s” 等 价 于 “bob 
s”，“rx-7” 等 价 于 “rx 7”。 注 意 这 意味 着 词 “rx7” 将 是 不 用 于 “rx-7” 的 记号 ， 因 此 会 被 单 
独 建 索 引 。 将 “rx 7"、“rx7”、“rx-7” 联 系 起 来 的 任务 ， 将 交 给 搜索 引擎 中 查询 转换 模块 来 
处 理 。 

另 一 方面 ， 如 果 完 全 依赖 查询 转换 对 不 同 的 词语 进行 适当 的 联系 或 推理 ， 可 能 会 有 降低 
有 效 性 的 风险 ， 尤 其 对 于 那些 没有 足够 数据 做 查询 扩展 的 应 用 。 这 种 情况 下 ， 可 以 在 词素 切 
分 器 中 加 入 更 多 的 规则 ， 以 保证 从 查询 文本 中 产生 的 标记 可 以 匹配 从 文档 文本 产生 的 标记 。 





日” 假设 网 络 查询 的 普通 语法 是 “<word>” 表 示 严 格 匹 配 引号 中 的 短语 。 
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比如 在 TREC 集 合 中 ， 使 用 一 个 规则 将 所 有 包含 撒 号 的 词语 解析 成 不 包含 撒 号 的 串 是 非常 有 效 
的 。 这 个 规则 将 “O'Connor” 解 析 成 “oconnor”,“Bob’s” 变 成 “bobs”。 针 对 TREC 集 合 的 
另外 一 CE AE ERS DARA MMR Ea AR SRT T 
简称 就 是 指 被 句点 分 成 单个 字母 的 串 。 这 条 规则 将 “I.B.M.” 解 析 为 “ ， 但 是 “Ph.D” 
仍然 变 成 “ph d”。 

总 之 ， 最 通用 的 词素 切 分 首先 识别 文档 结构 ， 然 后 将 文本 中 任何 以 空 将 和 特殊 符 号 结束 
的 字母 数字 序列 识别 为 词语 ， 并 将 大 写字 母 转换 为 小 写 。 这 样 做 并 不 比 本 节 开 始 提 到 的 简单 
处 理 复杂 多 少 ， 仍 然 将 困难 的 问题 交 给 信息 抽取 和 查询 转换 来 处 理 。 在 许多 情况 下 ， 词 素 切 
分 器 中 需要 增加 额外 的 规则 来 处 理 一 些 特殊 的 字符 ， 从 而 保证 查询 和 文档 的 词 项 可 以 匹配 。 


4.3.3 FARER 


人 类 语言 包含 很 多 功能 词 。 与 其 他 词 相 比 ， 功 能 词 没 有 什么 含义 。 最 普遍 的 功能 词 是 限 
定 词 (determiner) “the”、“a”、“an”、“that” 和 “those”。 这 些 词 帮助 在 文本 中 描述 名 
词 和 表达 概念 ， 如 地 点 或 数量 。 介 词 如 “over”"、“under”、“above” 和 “below” 表 示 两 个 名 
词 的 相对 位 置 。 

这 些 功 能 词 的 两 个 特性 促使 在 文本 处 理 中 对 其 特殊 对 待 。 第 一 ， 这 些 功 能 词 极其 普遍 。 
表 4-2 显 示 AP89 集 合 中 几乎 所 有 的 高 频 词 都 属于 这 个 类 别 。 记 录 这 些 词 在 每 一 个 文档 中 的 数量 
需要 很 大 的 磁盘 空间 。 第 二 ， 由 于 它们 的 普遍 性 和 功能 ， 这 些 词 很 少 单独 表达 文档 相关 程度 
的 信息 。 如 果 在 检索 过 程 中 考虑 每 一 个 词 而 不 是 短语 ， 这 些 功 能 词 基本 没有 什么 帮助 。 

在 信息 检索 中 ， 这 些 功能 词 的 另 一 个 名 称 是 : 停 用 词 (stopword) 。 称 它们 为 停 用 词 是 因 
为 在 文本 处 理 过 程 中 如 果 遇 到 它们 ， 则 立刻 停止 处 理 ， 将 其 直接 扔 掉 。 将 这 些 词 扔 掉 减 少 了 
索引 量 ， 增 加 了 检索 效率 ， 并 且 通 常 都 会 提高 检索 的 效果 。 

构建 停 用 词 词 表 需 要 谨慎 行 之 。 去 除 太 多 的 词 会 损害 检索 效果 ， 影 响 用 户 体验 感受 。 例 
如 ， 查 询 “to be or not to be” 时 所 有 词 都 是 通常 认为 的 停 用 词 。 虽 然 不 去 除 停 用 词 会 让 排序 
出 现 麻烦 ， 但 是 去 除 停 用 词 也 会 让 非常 合理 的 查询 没有 检索 结果 。 

停 用 词 词 表 可 以 简单 由 集合 中 前 m (4050) 个 高 频 词 构成 。 然 而 这 样 也 会 导致 某 些 对 查询 
很 重要 的 词 也 被 包含 进来 。 更 典型 的 做 法 是 ， 或 者 使 用 一 个 标准 的 停 用 词 词 表 8 ， 或 者 手动 
维护 一 个 高 频 词 和 标准 停 用 词 词 表 ， 将 可 能 对 特定 应 用 有 意义 的 词 从 词 表 中 删除 。 也 可 以 为 

档 结构 中 特定 的 部 分 (也 称 为 域 ,field) 定制 停 用 词 词 表 。 例 如 ， 当 处 理 销 文本 时 ,“click”、 
“here”、“privacy” 作 为 停 用 词 可 能 便 是 合理 的 。 

如 果 在 储 空间 人 允许， 最 好 索引 文档 中 所 有 的 词 。 如 果 需 要 去 除 停 用 词 ， 那 么 可 以 去 除 查 
询 中 的 停 用 词 。 在 索引 中 保留 停 用 词 ， 便 有 多 种 方法 来 处 理 含有 停 用 词 的 查询 。 例 如 ， 许 多 
系统 会 去 除 查 询 中 的 停 用 词 ， 除 非 停 用 词 前 面 有 加 号 标记 。 如 果 由 于 存储 空间 有 限 而 无 法 在 
索引 中 保留 停 用 词 ， 那 么 也 应 该 去 除 尽 量 少 的 词 ， 以 保持 最 大 限度 的 灵活 性 。 


4.3.4 词 干 提取 


自然 语言 强大 的 表达 能 力 在 于 ， 可 以 有 大 量 不 同 的 方式 表达 同一 观点 。 这 对 依赖 匹配 词 
语 找到 相关 文档 的 搜索 引擎 而 言 ， 便 成 为 一 个 问题 。 很 多 技术 允许 搜索 引擎 匹配 语义 相关 的 





日 ”例如 ， 随 Lemur 工 具 包 发 布 了 一 个 停 用 词 词 表 ， 被 Galago 采 用 。 
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词 ， 而 不 是 严格 要 求 完全 一 致 的 词 才 能 匹配 。 词 干 提取 (stemming) ， 也 称 为 异 文 合 并 
(conflation)， 是 指 获得 一 个 词 不 同 变形 之 间 关 系 的 文本 处 理 过 程 。 更 准确 地 讲 ， 词 干 提 取 将 
一 个 词 由 于 变形 (inflection) (WAR, ME) 或 者 派生 (derivation) (如 在 一 个 动词 后 加 后 
缀 -ation 得 到 对 应 名 词 ) 产生 的 多 种 不 同形 式 简化 为 一 个 共同 的 词 干 。 

假设 希望 搜索 与 Mark Spitz 的 奥林匹克 游泳 运动 事业 相关 的 新 闻 报 道 ， 可 能 向 一 个 搜索 引 
A “mark spitz swimming”。 然 而 ， 许 多 新 闻 报 道 通常 是 对 已 发 生 事件 的 总 结 ， 因 此 它们 
有 可 能 包含 “swam” 而 非 “swimming”。 这 时 就 需要 词 干 提取 器 将 “swimming” 和 “swam” 
归结 为 相同 的 词 干 (有 可 能 是 “swim”)， 从 而 允许 搜索 引擎 匹配 这 两 个 词 。 

通常 来 讲 ， 在 面向 英文 文本 搜索 应 用 中 ， 使 用 词 干 提取 器 会 使 搜索 结果 质量 有 小 的 但 是 
明显 的 提高 。 在 面向 变形 现象 非常 普遍 的 语种 如 阿拉 伯 语 或 俄语 的 应 用 中 ， 词 干 提取 是 有 效 
搜索 的 关键 环节 。 

有 两 种 基本 类 型 的 词 干 提取 器 : 规则 演算 系统 (algorithmic) 和 基于 词典 的 系统 
(dictionary-based)。 一 个 基于 规则 演算 的 词 干 提取 器 通常 基于 特定 语言 词 级 知识 ， 使 用 一 个 
小 的 程序 决定 两 个 词 是 否 相 关 。 相 反 ， 基 于 词典 的 词 干 提取 器 没有 本 身 的 逻辑 ， 而 是 依赖 预 
先 构 建 的 相关 词语 的 词典 来 存储 词语 的 关系 。 

最 简单 的 基于 规则 演算 的 英语 词 干 提取 器 只 处 理 后 级 “s”。 这 种 系统 假设 任何 以 “s” 结 
束 的 词 均 是 复数 ， 因 此 cakes 一 cake，dogs 一 dog。 当 然 ， 这 个 规则 并 不 完美 ， 它 无 法 发 现 很 多 
复数 关系 ， 如 “century” 和 “centuries”。 在 非常 特殊 的 情况 下 ， 它 会 发 现 一 些 不 存在 的 关系 ， 
如 “I” 和 “is”。 第 一 类 错误 被 称 为 错误 否定 (false negative) ， 第 二 类 错误 称 为 错误 肯定 
(false positive) 9, 

更 复杂 的 基于 规则 演算 的 词 干 提取 器 考虑 更 多 种 类 的 后 级 ， 如 -ing 或 -ed， 以 减少 错误 否 
定 。 通 过 处 理 更 多 类 型 的 后 缀 ， 系 统 可 以 找到 更 多 的 词语 关系 ， 换 名 话说， 减少 了 错误 否定 
率 。 然 而 ， 错 误 肯 定 率 (找到 不 存在 的 关系 ) 往往 升 高 。 

最 流行 的 基于 规则 演算 的 词 千 提取 器 是 Porter stemmere 。 自 从 20 世 纪 70 年 代 以 来 ， 它 被 
使 用 在 很 多 信息 检索 实验 和 系统 中 ， 并 且 有 很 多 不 同 的 实现 可 用 。 这 个 词 干 提取 器 由 很 多 步 
区 组 成 ， 每 一 步骤 包含 一 套 去 除 后 缀 的 规则 。 每 一 步 双 总 是 优先 执行 处 理 最 长 后 缀 的 规则 ， 
有 些 规 则 的 含义 很 明显 ， 而 其 他 规则 需要 深入 理解 才能 明白 它们 的 作用 。 这 里 将 第 一 步 ( 共 
五 步 ) 中 的 前 两 部 分 用 来 举例 : 

aR la: 

-用 “ss” 替 换 后 弘 “sses” (4lstresses— stress) 。 

- 如 果 后 级“s” 前 面 的 部 分 包含 一 个 元 冲 ， 并 且 元 音 不 紧邻 这 个 “s”， 那 么 删除 这 个 “s” 

(如 gapbs 一 gap， 而 gas 一 gas) 。 
- 如 果 后 级 “ied” 或 “ies” 前 面 有 超过 一 个 字母 ， 那 么 替换 成 “i”， 否 则 替换 成 “ie” 
(#hties—tie, cries-cri) 。 

- 如 果 后 缀 是 “us” 或 “ss”， 就 什么 也 不 做 (如 stress 一 stress)。 

AER 1b: 

- 如 果 后 级 “eed” 或 “eedly” 位 于 一 个 元 音 后 面 第 一 个 非 元 音 之 后 ， 则 替换 为 “ee”( 如 

日 ”这 些 术语 在 任何 二 值 决策 过 程 中 使 用 ， 以 描述 两 种 错误 。 这 包括 评价 ( 见 第 8 章 ) 和 分 类 (MEIR). 
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agreed—agree, feed 一 fee)。 
- 如 果 后 绥 “ed”、“edly”、“ing” 或 “ingly” 前 面 存在 元 音 ， 那 么 删除 这 个 后 缀 。 然 后 ， 
如 果 词 以 “at”、“bl” 或 “iz” 结 束 ， 那 么 在 词尾 增加 “e” (如 fished 一 fish，pirating 一 
pirate) ;或 者 如 果 词 以 韭 “1”、“ss” 或 “zz” 的 双 写 字母 结束 ， 则 删除 最 后 一 个 字母 
(如 falling 一 fall，dripping 一 drip) ， 或 者 如 果 词 很 短 ， 则 在 词尾 增加 “e”( 如 hoping 一 
hope) 。 

- RẸ! 
Porter stemmer 在 很 多 TREC 评 测 中 和 搜索 应 用 中 证 明 是 有 效 的 。 但 是 很 难 在 一 个 相对 简 
单 的 算法 中 包括 一 个 语言 所 有 的 细节 变化 。 最 初版 本 的 Porter stemmer 犯 了 很 多 错误 ， 错 误 肯 
定 和 错误 否定 都 有 。 表 4-7 中 给 出 一 些 错误 的 例子 。 很 容易 想像 ， 如 果 混 淆 了 “execute” 和 
“executive”， 或 者 “organization” 和 “organ”， 就 会 使 结果 排序 出 现 问 题 。 一 个 最 近 的 版 本 

( 称 为 Porter2) 9 解决 了 一 些 这 样 的 问题 ， 并 且 提 供 了 一 种 机 制 允 许 指 定 例 外 。 


表 4-7 早期 Porter stemmer 错 误 示 例 。 错 误 肯 定 指 词 干 不 同 的 词 对 。 错 误 否 定 指 词 干 相同 的 词 对 








organization/organ european/europe negligible/negligent useful/usefully 
generalization/generic cylinder/cylindrical execute/executive noise/noisy 
numerical/numerous matrices/matrix past/paste decompose/decomposition 
policy/police urgency/urgent ignore/ignorant sparse/sparsity 
university/universe create/creation special/specialized resolve/resolution 
addition/additive analysis/analyses head/heading triangle/triangular 











基于 词典 的 词 干 提 取 器 提供 了 解决 错误 的 另外 一 种 方法 。 可 以 在 一 个 大 的 词典 中 存储 相 
关 词 的 列表 ， 而 不 是 尝试 从 字母 模版 来 发 现 词 的 关系 。 这 些 词 表 可 以 由 人 来 创建 ， 可 以 期 望 
错误 肯定 率 会 很 低 。 相关 的 词 甚 至 不 必 看 起 来 相似 , 一 个 基于 词典 的 词 干 提取 器 可 以 识别 “is”、 
“be” 和 “was”， 它 们 都 是 相同 动词 的 不 同形 式 。 然 而 ， 一 个 词典 不 可 能 无 限 长 ， 因 此 它 无 法 
自动 融入 新 词 。 随 着 语言 的 不 断 发 展 ， 这 是 一 个 很 重要 的 问题 。 通 过 对 文本 语 料 进行 统计 分 
析 ， 自 动 建立 词 干 字典 是 有 可 能 的 。 当 词 干 提取 用 于 查询 扩展 时 ， 这 种 方法 非常 有 用 ， 我 们 
将 在 6.2.1 节 讨论 它 。 


另外 一 种 策略 是 结合 基于 规则 和 基于 词典 的 词 干 提取 器 。 一 般 地 ， 一些 不 规则 的 词 如 动 
词 “to be” 在 语言 中 是 最 古老 的 ， 而 新 词 则 遵循 更 规则 的 语法 约定 。 这 意味 着 新 造 的 词 很 可 
能 适合 用 基于 规则 的 系统 分 析 。 因 此 ， 词 典 可 以 用 来 发 现 平 常 的 词 之 间 的 关系 ， 而 规则 可 以 
用 来 处 理 陌 生词 。 

这 种 混合 方法 的 一 个 有 名 的 例子 是 Krovetz stemmer (Krovetz，1993)。 这 个 词 干 提取 器 
使 用 词典 来 确定 一 个 词 是 否 正确 。Krovetz stemmer 中 使 用 的 词典 包括 英语 的 一 个 通用 词典 ， 
同时 使 用 一 些 手 动 生成 的 例外 列表 。 词 干 提取 之 前 ， 先 确定 一 个 词 是 否 在 词典 中 存在 。 如 果 
存在 ， 或 者 将 这 个 词 保留 下 来 (如 果 它 在 通用 词典 中 )， 或 者 基于 例外 列表 对 这 个 词 进行 词 干 
提取 。 如 果 这 个 词 没 有 包含 在 词典 中 ， 那 么 使 用 一 个 通用 的 变形 和 派生 后 绎 列表 ， 逐 个 检查 
这 个 词 。 如 果 找 到 一 个 匹配 的 后 缀 ， 那 么 从 这 个 词 删除 这 个 后 绥 ， 然 后 再 次 检查 这 个 词 是 否 
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包含 在 词典 中 。 如 果 不 包含 在 词典 中 ， 那 么 根据 被 删除 的 后 缀 修改 这 个 词 的 结尾 。 例 如 ， 如 
果 “-ies” 匹 配 上 的 话 ， 就 使 用 “-ie” 来 替换 ， 然 后 检查 是 否 包含 在 词典 中 。 如 果 词 典 中 包括 
这 个 词 ， 那 么 接受 这 个 词 干 ， 否 则 词尾 被 替换 为 “y”。 例 如 ， 这 将 导致 calories 一 calorie。 检 
查 后 缀 的 过 程 是 一 个 序列 《例如 ， 先 检查 复数 ， 然 后 检查 是 否 以 “-ion” 结 尾 )， 因 此 可 能 会 
ARS TAR. 
Krovetz stemmer 比 Porter stemmer 的 错误 肯定 率 低 ， 但 是 取决 于 例外 列表 的 大 小 。 它 的 错 

误 否 定 率 较 高 。 总 之 ， 用 于 搜索 评价 时 ， 这 两 个 词 干 提取 器 的 效果 是 可 以 比较 的 。Krovetz 
stemmer 的 一 个 优势 是 ， 大 多 数 情况 下 ， 它 产生 的 词 干 是 完整 的 词 ， 而 Porter stemmer 通 常 产 
生词 片段 。 如 果 词 干 被 用 于 搜索 界面 ， 这 将 会 带 来 一 定 的 影响 。 

Original text: 

Document will describe marketing strategies carried out by U.S. companies for their agricultural 

chemicals, report predictions for market share of such chemicals, or report market statistics for 


agrochemicals, pesticide, herbicide, fungicide, insecticide, fertilizer, predicted sales, market share, 
stimulate demand, price cut, volume of sales. 


Porter stemmer: 


dotument describ market strategi carri compani agricultur chemic report predict market share chemic 
report market statist agrochem pesticid herbicid fungicid insecticid fertil predict sale market share 
stimu demand price cut volum sale 


Krovetz stemmer: 

decument describe marketing strategy carry company agriculture chemical report prediction market 
share chemical report market statistic agrochemic pesticide herbicide fungicide insecticide fertilizer 
predict sale stimulate demand price cut volume sale 





图 4-6 多 个 词 干 提取 器 对 一 个 TREC 查 询 的 输出 结果 比较 。 停 用 词 被 去 除 


图 4-6 比 较 了 Porter stemmer 和 Krovetz stemmer 针 对 一 个 TREC 查 询 的 输出 。 虽 然 
“marketing” 由 于 在 词典 中 存在 而 没有 被 简化 为 “market”， 但 从 哪些 词 被 简化 为 同一 个 词 干 
的 角度 看 ，Krovetz stemmer 的 结果 是 相似 的 。Krovetz stemmer 得 到 的 词 千 大 多 是 完整 的 词 。 
一 个 例外 是 “agrochemic”， 这 是 因为 “agrochemical” 不 包含 在 词典 中 。 注 意 这 个 例子 中 的 
文本 处 理 ， 去 除了 停 用 词 ， 包 括 单字 符 的 词 。 这 样 便 扔 掉 了 “U.S.”， 从 而 会 对 某 些 查询 产生 
重大 的 后 果 。 这 种 情况 可 以 通过 更 好 的 词素 切 分 和 信息 抽取 来 处 理 ， 这 将 在 4.6 节 讨论 。 

像 停 用 词 的 情况 那样 ， 如 果 不 对 文档 中 的 词 提取 词 干 ， 而 是 以 原来 的 形式 建立 索引 的 话 ， 
搜索 引擎 在 回答 各 种 各 样 的 查询 时 会 更 加 灵活 。 词 干 提取 可 以 作为 一 种 查询 扩展 ， 对 此 将 在 
6.2.1 市 解释 。 在 一 些 应 用 中 ， 词 和 词 干 都 建 索 引 ， 从 而 提供 灵活 而 有 效率 的 查询 处 理 。 

前 面 提 到 词 干 提取 对 于 一 些 语言 特别 重要 ， 而 对 其 他 语言 则 基本 没有 影响 。 使 用 与 语言 
关 的 词 干 提取 算法 ， 是 为 多 种 语言 定制 或 者 实现 一 个 搜索 引擎 的 国际 化 (internationalizing) 
最 重要 的 方面 。 我 们 将 在 4.7 节 讨论 国际 化 的 其 他 方面 ， 在 此 只 关注 词 干 提取 。 

作为 一 个 例子 ， 表 4-8 包 含 一 些 从 相同 的 词 干 派生 出 来 的 阿拉 伯 语 词语 。 尝 试 将 阿拉 伯 语 
词语 简化 为 词 千 的 词 干 提取 算法 显然 无 法 工作 (阿拉 伯 语 有 少 于 2 000 个 词 干 ), HERES 
虚 很 多 前 缀 和 后 级 。 词 形变 化 非常 繁多 的 语言 如 阿拉 伯 语 有 很 多 词语 变形 ， 词 干 提取 可 以 在 
很 大 程度 上 改变 查询 结果 排序 精度 。 一 个 包含 高 质量 词 干 提取 器 的 阿拉 伯 语 搜索 引擎 ， 比 不 
包含 词 干 提取 器 的 系统 在 获得 相关 文档 上 的 效果 平均 好 50% 以 上 。 相 反 ， 在 大 规模 数据 集合 
上 ， 英 语 搜 索引 擎 的 效果 提高 少 于 5%， 而 在 小 规模 、 特 定 领 域 的 集合 上 ， 约 为 10%。 
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幸运 的 是 ， 许 多 语言 的 词 干 提取 器 已 经 被 开发 出 来 ， 并 且 作 为 开源 软件 自由 使 用 。 例 如 ， 
Porter stemmer ġia, MEFE., WATE, 24-8 阿拉 伯 语 从 词 干 Ktb 派 生出 的 词 移 例子 


意大利 语 、 罗 马 尼 亚 语 、 德 语 、 丹 麦 语 、 瑞 和 典 语 、 kitab . a book 
挪威 语 、 丹 麦 语 、 俄 语 、 芬 兰 语 、 匈 牙 利 语 和 土 kitabi my book 
耳 其 语 上 都 有 可 用 版 本 8 。 另 外 ， 当 只 有 一 个 文 alkitab the book 
wy ` ees kitabuki your book(f) 
本 语 料 可 用 的 时 候 ， 才 可 以 使 用 6.2.1 节 搞 太 的 统 oe er bookie 
计 方 法 建立 词 干 提取 器 。 kitabuhu his book 
te’ 一 kataba : to write 
4.3.5 短语 和 n 元 串 maktaba library, bookstore 
显然 短语 对 信息 检索 很 重要 。 很 多 提交 给 搜 maktab office 


索引 擎 的 两 个 词 或 三 个 词 的 查询 都 是 短语 ， 找 到 
含有 这 些 短语 的 文档 将 是 有 效 排序 算法 的 一 部 分 。 例 如 ， 给 定 查 询 “black sea”， 与 包含 文本 
如 “the sea turned black” 的 文档 相 比 ， 含 有 这 个 短语 的 文档 更 有 可 能 是 相关 的 。 描 述 一 个 话 
题 的 时 候 ， 短 语 比 单个 词 更 准确 (如 “tropical fish” FAX “fish”), FFARR Le (an 
“rotten apple” 相对 “apple”)。 然 而 ， 短 语 对 检索 的 影响 可 以 很 复杂 。 给 定 查 询 如 “fishing 
supplies”， 检 索 出 的 文档 应 该 确切 地 包含 这 个 短语 ， 还 是 只 要 在 同一 段落 甚至 同一 文档 中 包含 
“fish”、“fishing” 和 “supplies” 这 几 个 词 即 可 ? 短语 影响 排序 的 细节 ， 问 题 与 搜索 引擎 包含 
的 特定 检索 模型 紧密 联系 ， 因 此 将 这 个 讨论 延 到 第 7 章 。 从 文本 处 理 的 角度 看 ， 问 题 在 于 是 否 
应 该 在 词素 切 分 和 词 干 提取 的 同时 识别 短语 ， 从 而 可 以 对 短语 建 索 引 ， 进 而 加 速 查询 处 理 。 

短语 有 很 多 的 定义 ， 其 中 大 多 数 多 年 来 一 直 被 人 们 在 检索 实验 里 研究 。 由 于 短语 有 一 个 
语法 定义 ， 用 甸子 的 语法 结构 来 识别 短语 似乎 比较 合理 。 

在 信息 检索 研究 中 ， 使 用 最 频繁 的 定义 是 短语 等 价 于 简单 的 名 词 短 语 (noun phrase)。 短 
语 经 常 被 进一步 限制 为 只 包含 名 词 或 名 词 前 的 形容 词 的 序列 。 这 种 标准 定义 的 短语 可 以 使 用 
词性 标注 器 (part-of-speech tagger， POS) 识别 。 词 性 标注 器 根据 上 下 文 信息 对 文本 中 的 每 
一 个 词 赋予 一 个 词性 标记 。 词 性 标注 器 基于 统计 或 规则 的 方法 ， 并 且 使 用 人 工 标注 的 大 规模 
语 料 训 练 。 一 般 的 词性 标记 包括 NN (单数 名 词 )、NNS (复数 名 词 )、VB (动词 )、VBD (ah 
词 ， 过 去 时 ) 、VBN (动词 ， 过 去 分 词 )、IN (rid). I (形容 词 )、CC (连词 ， 如 “and ”、 
“or”), PRP (代词 ) 和 MD (情态 助词 ， 如 “can”、“will”) 。 

图 4-7 给 出 一 个 词性 标注 器 对 图 4-6 中 的 TREC 查 询 文本 的 处 理 结果 。 这 个 例子 说 明 标注 器 
可 以 识别 名 词 序 列 构成 的 短语 ， 如 “marketing/NN strategies/NNS”， 或 者 形容 词 序 列 后 跟 名 
词 序列 的 短语 ， 如 “agricultural/JJ] chemicals/NNS”, Rit, Mik swe eA HE. 
“predicted/VBN sales/INNS” 就 不 能 识别 为 一 个 短语 ， 因 为 “predicted” 被 标 为 动词 。 

表 4-9 给 出 了 一 些 高 频 的 简单 名 词 短 语 ， 它 们 来 自 一 个 主要 包含 新 闻 报 道 的 TREC 语 料 和 
一 个 相同 规模 的 包含 美国 专利 与 商标 部 (PTO) 1996 年 发 布 的 所 有 专利 的 语 料 。 这 些 短语 通 
过 词性 标注 被 识别 出 来 。 例 子 中 短语 的 频率 大 小 显示 PTO 语 料 使 用 短语 更 频繁 ， 因 为 专利 措 
辞 比较 规范 ， 会 使 用 相当 多 的 重复 。 在 TREC 语 料 中 ， 有 1 100 000 个 短语 出 现 超过 五 次 ， 而 在 
PTO 语 料 中 有 3 700 000 个 。 很 多 TREC 语 料 中 的 短语 是 专 有 名 词 ， 如 “los angeles” 
“european union”， 或 者 是 对 检索 很 重要 的 话题 ， 如 “peace process” 和 “human rights”, 4 


© http://snowball.tartarus.org/。 
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两 个 短语 和 文档 的 格式 相关 (“article type”, “end recording”)。 另 一 方面 ，PTO 语 料 中 大 多 
数 短 语 则 是 用 以 描述 专利 的 标准 术语 ， 如 “present invention” 和 “preferred embodiment” , 
而 相对 少数 的 短语 与 专利 的 内 容 相 关 ， 如 “carbon atoms” 和 “ethyl acetate”。 有 一 个 短语 
“group consisting” 是 频繁 的 词性 标注 错误 造成 的 。 


虽然 词性 标注 可 以 产生 合理 的 短语 ， 


Orlginal text: 

Document will describe marketing strategies carried out by U.S. companies for their agricultural 
chemicals, report predictions for market share of such chemicals, or report market statistics for 
agrochemicals, pesticide, herbicide, fungicide, insecticide, fertilizer, predicted sales, market share, 
stimulate demand, price cut, volume of sales. 


Brill tagger: 


Document/NN wili/MD describe/VB marketing/NN strategies/NNS carried/VBD out/IN by/IN U.S./NNP 
companies/NNS for/iN their/PRP agricultural/JJ chemicals/NNS ,/, report/NN predictions/NNS for/IN 
market/NN share/NN of/IN such/J) chemicals/NNS ,/, or/CC report/NN market/NN statistics/NNS for/IN 
agrochemicals/NNS ,/, pesticide/NN ,/, herbicide/NN ,/, fungicide/NN ,/, insecticide/NN ,/, fertitizer/NN 
„d, predicted/VBN sales/NNS ,/, market/NN share/NN ,/, stimulate/VB demand/NN ,/, price/NN cut/NN 
4, volume/NN of/IN sales/NNS ./. 





图 4-7 一 个 TREC 查 询 的 词性 标注 结果 
并 且 已 经 被 用 在 很 多 应 用 中 ,但 是 总 的 来 讲 ， 对 于 


大 规模 数据 集合 ， 这 种 方法 作为 短语 建 索引 的 初步 工作 ， 就 太 慢 了 。 其 他 更 简单 、 更 快 的 方 
法 可 以 产生 同样 的 效果 。 一 种 方法 是 在 索引 中 存储 词 的 位 置信 息 ， 只 有 在 处 理 查 询 时 才 利 用 
这 个 信息 识别 短语 。 这 样 提 供 了 相当 大 的 灵活 性 ， 因 为 既 可 以 由 用 户 ， 也 可 以 通过 对 查询 进 
行 词性 标注 识别 短语 ， 并 且 短 语 不 局 限于 紧邻 的 词语 。 旬 法 短语 的 识别 可 以 取代 为 测试 词 是 
否 近 邻 ， 比 如 两 个 词 是 否 在 一 个 特定 文本 窗口 内 出 现 。 第 5 章 将 讲述 对 位 置 建 索 引 ， 第 7 章 将 
讲述 利用 词 近 邻 的 检索 模型 。 


频率 


65824 
61327 
33864 
18062 
17788 
17308 
15513 
15009 
12869 
12799 
12067 
10811 
9912 

8127 

7640 

7620 

7524 


表 4-9 来 自 一 个 TREC 语 料 和 美国 1996 年 专利 请 料 的 高 频 词 


TREC 语 料 专利 语 料 
短语 频率 短语 

united states 975362 present invention 
article type 191625 u.s. pat 
los angeles 147352 preferred embodiment 
hong kong 95097 carbon atoms 
north korea 87903 group consisting 
new york 81809 room temperature 
san diego 78458 seq id 
orange county 75850 brief description 
prime minister 66407 prior art 
first time 39828 perspective view 
soviet union 58724 first embodiment 
russian federation 56715 reaction mixture 
united nations 34619 detailed description 
southern california 54117 ethyl acetate 
south korea 52195 example 1 
end recording 52003 block diagram 
european union 46299 second embodiment 


KAA 61 





( 续 ) 







TREC 语 料 










south africa accompanying drawings 


7362 san francisco 40554 output signal 

7086 news conference 37911 first end 

6792 city council 35827 second end 

6348 middle east 34881 appended claims 
6157 peace process 33947 distal end 

5955 human rights 32338 cross-sectional view 


white house 





outer surface 


在 处 理 大 规模 数据 集合 并 且 要 求 快速 响应 时 间 的 应 用 中 ， 如 网 页 搜索 ， 在 查询 阶段 测试 
词 近邻 可 能 太 慢 了 。 这 样 的 话 ， 就 需要 在 文本 处 理 阶 段 用 一 个 更 简单 的 定义 识别 短语 ; 任何 n 
个 词 的 序列 都 构成 一 个 短语 。 这 就 是 所 谓 的 x 元 串 (n-gram)。 两 个 词 的 序列 称 为 二 元 串 
(bigram) ， 三 个 词 的 序列 称 为 三 元 串 (trigram)。 很 多 文本 应 用 都 是 用 到 n-gram， 本 书 也 会 频 
繁 地 提 到 这 个 术语 ， 尤 其 是 有 关 语 言 模 型 (language model) 的 部 分 〈 见 7.3 节 )。 在 此 关注 词 
(word) n-gram。 而 字符 (character) n-gram 也 会 在 一 些 应 用 中 使 用 ， 如 OCR， 此 时 文本 是 含 
有 了 噪声 的 ， 因 此 很 难 进行 词 匹配 〈 见 11.6 节 ) 。 在 对 一 些 没 有 词 分 隔 符 的 语言 如 汉语 建 索 引 时 ， 
也 会 使 用 字 n-gram。 产 生 n-gram (字符 或 词 ) 的 方法 是 ， 先 选择 一 个 n 值 ， 然 后 每 次 将 窗口 向 
前 移动 一 个 单元 (字符 或 词 )。 换 句 话说 ，n-gram 互 相 重 倒 。 例 如 ， 词 “tropical” 包 含 如 下 字 
符 的 二 元 串 ， tr、ro、op、Ppi、ic、ca 和 al。 基 于 mgram 的 索引 显然 要 比 词 索引 大 。 

一 个 词 n-gram 出 现 越 频 繁 ， 那 么 它 越 有 可 能 对 应 一 个 有 意义 的 短语 。 所 有 长 度 的 n-gram 
构成 一 个 齐 普 夫 分 布 ， 一 些 常见 短语 出 现 非 常 频繁 ， 大 量 的 短语 只 出 现 一 次 。 事 实 上 ，n- 
gram (包括 单个 词 ) 的 “排名 -频率 ”数据 比 只 有 词 本 身 更 符合 齐 普 夫 分 布 。 一 些 最 常见 的 六 
gram 由 停 用 词 构成 《如 “and the”, “there is”)， 因 此 可 以 被 忽略 。 但 是 和 使 用 词 时 的 情况 一 
样 ， 需 要 谨慎 地 丢弃 信息 。 前 面 提 到 的 查询 例子 “to be or not to be” 无 疑 可 以 利用 n-gram。 
可 以 对 文档 中 一 定 长 度 内 的 所 有 n-gram 建 索引 ， 然 后 在 排序 算法 中 使 用 它们 。 由 于 n-gram 规模 
巨大 ， 这 似乎 是 对 索引 时 间 和 磁盘 空间 的 浪费 。 例 如 ， 一 个 1000 个 词 构 成 的 文档 包含 长 度 2< 
n 志 5 的 n-gram 的 数量 为 3 990。 然 而 很 多 网 络 搜索 


、 表 4-10 Google n-gram 样 例 统计 信息 
引擎 对 n-gram 建 索 引 ， 原 因 是 ， 它 提供 了 一 种 在 一 一 一 一 一 一 一 一 一 一 


、 aos 4 、 标记 数 : 1 024 908 267 229 
AGE H}; 

排序 中 快速 融合 短语 特征 的 方法 。 句子 数 ， 95 119 665 584 
表 4-10 给 出 了 一 些 样 例 的 统计 信息 (Yang, 一 元 串 数 ， 13 588 391 
2007)。 对 网 络 上 n-gram 的 分 析 发 现 ，“all rights 二 元 串 数 ， 314 843 401 
reserved” 是 英语 中 最 频繁 的 三 元 串 ， 而 “有 限 mie 977 069 902 
=» w? H — = PU FC HAR 1 313 818 354 

责任 公司 ” 则 是 汉语 中 最 频繁 的 三 元 串 。 这 两 种 ea, 1 176 470 663 


现象 都 是 由 于 网 络 上 有 大 量 公司 站 点 ， 也 说 明了 
n-gram 大 多 数 并 不 是 说 话 的 通用 模式 ， 如 “and will be”, 
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4.4 文档 结构 和 标记 


在 数据 库 应 用 中 ， 数 据 库 记录 的 域 或 属性 是 搜索 的 关键 部 分 。 查 询 时 提供 这 些 域 的 取 值 
范围 。 在 某 些 文本 应 用 如 邮件 或 文献 搜索 中 ， 作 者 (author) 和 时 间 (date) 等 域 有 相似 的 作 
用 ， 因 此 成 为 查询 的 一 部 分 。 网 络 搜索 中 ， 查 询 通常 与 文档 结构 或 域 无 关 ， 但 是 这 并 不 意味 
着 这 种 结构 不 重要 。 从 HTML 标 记得 到 的 网 页 结构 的 有 些 部 分 ， 是 排序 算法 用 到 的 非常 重要 
的 特征 。 文 档 解 析 器 必须 识别 这 种 结构 并 且 在 建 索 引 时 使 用 。 

例如 ， 图 4-8 显 示 了 Wikipedia 一 条 记录 对 应 的 网 页 的 一 部 分 S。 这 个 网 页 有 中 含有 排序 算 
法 可 以 使 用 的 明显 结构 。 页 面 的 主 标题 是 “tropical fish”"， 说 明 这 个 短语 非常 重要 。 这 个 短语 
在 文本 主体 中 使 用 粗 体 和 斜体 ， 进 一 步 证 明了 它 的 重要 性 。 其 他 被 用 作 链 接 锚 文 本 的 词 或 者 
短语 ， 则 有 可 能 是 表示 页 面 内 容 的 好 的 词 项 。 


Tropical fish 


From Wikipedia, the free encyclopedia 


Tropical fish include fish found in tropical environments around the world, including 
both freshwater and salt water species. Fishkeepers often use the term tropical fish to 


refer only those requiring fresh water, with saltwater tropical fish referred to as marine 
fish. 


Tropical fish are popular aquarium fish , due to their often bright coloration. In 
freshwater fish, this coloration typically derives from iridescence, while salt water fish 
are generally pigmented. 





图 4-8 一 个 Wikipedia 网 页 的 一 部 分 


这 个 网 页 的 HTML 源 代码 ( 见 图 4-9) 表明 应 该 表示 更 多 的 结构 以 帮助 搜索 。HTML 中 ， 
每 一 个 域 或 元 素 (element) 都 伴随 着 一 个 开始 标记 (如 <hl>) 和 一 个 可 选 的 结束 标记 (Au 
</hl>)  。 元 素 也 可 以 有 一 些 属性 (包括 属性 值 )， 以 “属性 名 = 属性 值 ”给 出 。 一 个 HTML 
文档 的 <head> 元 素 包 含 的 元 数据 不 会 被 浏览 器 显示 。 关 键 词 (<meta name="keywords"/>) 对 
应 的 元 数据 元 素 给 出 一 个 词 和 短语 列表 ， 这 个 列表 可 以 作为 表达 页 面 内 容 的 额外 的 词 项 使 用 。 
Wikipedia 中 的 这 个 列表 是 其 他 网 页 的 标题 。 元 数据 元 素 <title> 给 出 网 页 的 标题 (和 主 标题 不 
同 )。 文 档 的 <body> 包 含 被 浏览 器 显示 的 内 容 。<hl> 指 明 主 标题 。 其 他 不 同 大 小 、 不 同 重要 程 
度 的 标题 由 <h2> 至 <h6> 指 明 。 应 该 被 显示 成 粗 体 或 斜体 的 词 项 由 <b> 或 <i> 指 出 。 不 同 于 典型 
的 数据 库 里 的 域 ， 这 些 标签 主要 用 于 格式 控制 ， 并 且 可 以 在 同一 文档 多 次 出 现 。 如 之 前 所 述 ， 
这 些 标签 也 可 以 看 作 是 一 个 词 或 短语 重要 性 的 标志 。 

像 <a href="/wiki/Fish" title="Fish">fish</a> 这 样 的 链接 很 常见 。 它 们 是 链接 分 析 算 法 如 
PageRank (Brin & Page, 1998) 的 基础 ， 同 时 也 定义 了 销 文本 。 链 接 和 锚 文 本 对 于 网 络 搜索 
非常 重要 ， 将 在 下 一 节 详 细 介 绍 。 一 个 链接 的 title 属 性 用 来 提供 链接 的 额外 信息 ， 在 这 个 例子 
中 ， 它 是 关联 的 Wikipedia 网 页 的 URL 末 尾 的 词 。 网 络 搜索 引擎 也 使 用 网 页 的 UREL 作 为 一 种 额 
外 的 元 数据 。 这 个 网 页 的 URL 是 ， 

hetp://en.wikipedia.org/wiki/Tropical_fish 


“tropical” 和 “fisn” 在 URL 中 出 现 这 个 事实 ， 增 加 了 这 两 个 词 对 网 页 的 重要 性 。 一 个 URL 的 


O WMAaAF445. htp://en.wikipedia.org/, 
Ə XML 中 ， 结 束 标记 是 必须 的 。 
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RE 〈 网 页 在 目录 中 的 层 数 ) 也 很 重要 。 例 如 ，URL 为 www.ibm.com 的 网 页 比 对 应 如 下 URL 
的 网 页 更 有 可 能 是 IBM 的 主页 : 


www.peworld.com/businesscenter/article/698/ibm_buys_apt! 






















<html> 
<head> 

<meta name="keywords" content="Tropical fish, Airstone, Albinism, Algae eater, 
Aquarium, Aquarium fish feeder, Aquarium furniture, Aquascaping, Bath treatment 
(fishkeeping),Berlin Method, Biotope" /> 


<title>Tropical fish - Wikipedia, the free encyclopedia</title> 
</head> 
<body> 


<hl class="firstHeading">Tropical fish</h1> 


<p><b>Tropical fish</b> include <a href="/wiki/Fish" title="Fish">fish</a> found in <a 
href="/wiki/Tropics" title="Tropics">tropical</a> environments around the world, 
including both <a href="/wiki/Fresh_water" title="Fresh water">freshwater</a> and <a 
href="/wiki/Sea_water" title="Sea water">salt water</a> species. <a 
href="/wiki/Fishkeeping" title="Fishkeeping">Fishkeepers</a> often use the term 
<i>tropical fish</i> to refer only those requiring fresh water, with saltwater tropical fish 
referred to as <i><a href="/wiki/List_of_marine_aquarium_fish_species” title="List of 
marine aquarium fish species">marine fish</a></i>.</p> 

<p>Tropical fish are popular <a href"/wiki/Aquarium” title="Aquarium">aquarium</a> 
fish , due to their often bright coloration. In freshwater fish, this coloration typically 
derives from <a href="/wiki/ridescence” title="Iridescence">iridescence</a>, while salt 
water fish are generally <a href="/wiki/Pigment” title="Pigment">pigmented</a>.</p> 


</body></htmi> 





图 4-9 Wikipedia 示 例 网 页 的 源 代码 


HTML 预先 定义 了 元 素 类 型 ， 对 于 所 有 文档 都 是 一 致 的 。 相 反 ，XMEL 人 允许 应 用 自 定 勾 元 
素 类 型 ， 以 及 表示 元 素 类 型 用 到 的 标签 。XML 文 档 可 以 用 schema 来 描述 ， 类 似 于 数据 库 模 式 。 
因此 ，XML 的 元 素 比 HTML 与 数据 的 语义 联系 更 紧密 。 搜 索 应 用 经 党 使 用 XML 记录 由 信息 抽 
取 技 术 生 成 的 文档 的 语义 标注 (semantic annotation) ， 这 将 在 4.6 节 中 讨论 。 这 些 应 用 使 用 的 
文档 解析 器 会 记录 这 些 标注 以 及 其 他 文档 结构 ， 以 便 建 索 引 时 使 用 。 

基于 XML， 数 据 库 研究 界定 义 了 面向 结构 化 数据 搜索 的 查询 语言 XQueryS 。XQuery 允 许 
查询 时 指定 结构 和 内 容 限制 ， 这 就 引起 了 争论 : 对 于 XML 数据 ， 数 据 库 或 信息 检索 方法 比 构 
建 一 个 搜索 引擎 好 ? 11.4 节 将 仔细 讨论 这 个 问题 。 但 是 一 般 来 讲 ， 这 与 数据 、 应 用 和 用 户 的 
需求 有 关 。 当 XML 数据 中 文本 占 很 大 部 分 的 时 候 ， 信 息 检 索 方法 更 好 些 。 第 7 章 将 会 讨论 针对 
包含 结构 化 和 元 数据 的 文本 文档 设计 的 检索 模型 。 


4.5 链接 分 析 


将 不 同 网 页 联系 起 来 的 链接 是 互联 网 的 一 个 核心 组 成 。 在 人 们 浏览 网 页 的 时 候 ， 链 接 提 
供 了 强大 的 导航 作用 ， 同 时 也 帮助 搜索 引擎 理解 网 页 之 间 的 关系 。 这 种 关系 帮助 搜索 引擎 更 
有 效 地 对 网 页 进行 排序 。 但 是 需要 了 解 的 是 ， 一 些 搜索 应 用 如 桌面 搜索 或 企业 搜索 使 用 的 很 
多 数据 库 不 包含 或 包含 很 少 的 链接 结构 。 对 于 这 类 数据 集合 ， 链 接 分 析 对 搜索 效果 没有 影响 。 


日 http:/www.w3.org/XML/Query/。 
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如 上 一 节 所 见 ， 一 个 网 页 链接 在 HTML 被 编码 为 ; 

For more information on this topic, please go to <a href="http://www.somewhere.com">the 
somewhere page</a>. | 

当 在 网 页 浏览 器 显示 这 个 网 页 时 ， 这 些 词 “the somewhere page” 会 和 一 般 的 文本 不 同 ， 
比如 带 有 下 划 线 或 者 使 用 其 他 的 颜色 (或 者 两 者 都 有 )。 点 击 那 个 链接 ， 浏 览 器 就 会 加 载 网 页 
http://www.somewhere.com。 在 这 个 链接 中 ，“the somewhere page” 称 为 锚 文 本 (anchor text), 
http://www.somewhere.com 称 为 目标 网 页 (destination) 。 这 两 部 分 在 排序 时 都 有 用 。 

4.5.1 销 文 本 

销 文 本 的 两 个 特性 使 其 对 网 页 排序 非常 有 用 。 第 一 ， 它 一 般 很 短 ， 可 能 有 两 个 或 三 个 词 ， 
并 且 这 些 词 通常 能 够 简洁 地 描述 链 出 网 页 的 主题 。 例 如 ， 指向 www.ebay.com 的 链接 很 有 可 能 
在 锚 文 本 中 包含 “eBay” 这 个 词 。 很 多 查询 和 锚 文 本 很 相似 ， 它们 也 是 对 网 页 主题 的 简短 描 
述 。 这 就 引出 了 一 个 非常 简单 的 排序 算法 : 搜索 数据 库 中 所 有 的 链接 ， 查 找 与 用 户 查询 完全 
匹配 的 锚 文 本 。 每 匹配 一 次 ， 就 给 目标 网 页 的 权重 加 1 ， 网 页 排序 时 应 该 以 权重 下 降 的 顺序 。 
这 个 算法 存在 一 些 很 严重 的 问题 ， 其 中 之 一 是 如 何 处 理 查 询 “click here”。 总 的 来 讲 ， 链 接 的 
销 文 本 集合 可 以 作为 链 出 网 页 额外 的 文本 属性 ， 可 以 在 排序 算法 中 使 用 。 

写 锚 文 本 的 人 一 般 不 是 目标 网 页 的 作者 。 这 意味 着 销 文本 可 能 是 从 另 一 个 角度 来 描述 目 
标 网 页 ， 或 者 强调 这 个 网 页 被 某 个 群体 视 为 最 重要 的 特性 。 链 接 存 在 本 身 就 说 明了 目标 网 页 
的 重要 性 。 虽 然 在 网 络 搜索 引擎 讨论 中 ， 铺 文 本 不 像 链接 分 析 算 法 如 PageRank 那 样 经 常 被 人 
提起 ， 然 而 TREC 评 测 结果 显示 ， 在 一 些 类 型 的 网 页 搜索 中 ， 它 是 网 页 表示 中 最 重要 的 部 分 ， 
特别 当 人 们 希望 搜索 一 个 特殊 话题 、 人 或 机 构 的 主页 时 ， 它 必 不 可 少 。 

4.5.2 PageRank 


网 页 数量 已 达到 数 百 亿 ， 但 其 中 大 多 数 并 不 是 很 有 趣 。 很 多 网 页 都 是 垃圾 ， 不 包含 任何 
有 用 的 内 容 。 其 他 的 网 页 则 是 个 人 日 志 、 结 婚 公告 或 者 家 庭 影集 。 这 些 网 页 对 一 小 部 分 人 来 “ 
说 是 有 趣 的 ， 但 很 可 能 并 不 普遍 。 另 一 方面 ， 只 有 一 些 网 页 对 很 多 人 有 用 ， 受 到 人 们 的 欢迎 ， 
包括 新 闻 站 点 和 流行 公司 的 网 站 。 

网 络 的 巨大 规模 给 搜索 引擎 造 成 了 麻烦。 假设 一 个 朋友 告诉 你 访问 易趣 的 网 站 ， 而 你 不 
知道 URL 是 www.ebay.com。 你 可 能 使 用 一 个 搜索 引擎 搜 “eBay”， 但 是 数 百 亿 个 网 页 中 都 包 
含 “eBay”。 搜 索引 擎 如 何 选择 最 受 欢 迎 (有 可 能 就 是 正确 的 ) 的 网 页 ? 一 种 非常 有 效 的 方法 
是 ,使 用 网 页 间 的 链接 来 衡量 流行 程度 。 最 明显 的 衡量 方法 是 统计 每 个 网 页 的 入 链 (inlink, 
指向 这 个 网 页 的 链接 ) 数 ， 作 为 排序 算法 的 一 个 特征 或 证 据 。 虽 然 这 种 方法 证 明 很 有 效 ， 但 
是 却 对 垃圾 信息 很 敏感 。 基 于 链接 分 析 算法 的 衡量 方法 ， 需 要 保证 网 页 排序 更 加 可 靠 。 在 这 
些 衡量 方法 中 ，PageRank 最 经 常 被 提 到 。 

PageRank 基 于 随机 冲浪 (random surfer， 像 在 网 络 中 冲浪 一 样 ) 的 想法 。 想 像 一 个 名 叫 
Alice 的 人 正在 使 用 她 的 网 页 浏览 器 。Alice 很 无 聊 ， 因 此 她 没有 目的 地 随便 查看 网 页 。 她 的 浏 
览 器 顶部 有 一 个 特殊 的 “surprise me” 按 钮 ， 当 她 点 击 这 个 按钮 的 时 候 ， 浏 览 器 就 会 跳 到 一 
个 随机 的 网 页 。 每 次 加 载 完 一 个 网 页 ， 她 或 者 使 用 “surprise me”， 或 者 点 击 这 个 网 页 中 的 某 
一 个 链接 。 如 果 她 点 击 这 个 网 页 中 的 某 一 个 链接 ， 她 不 会 优先 选择 任何 一 个 链接 ， 而 是 随机 
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选择 一 个 。Alice 非 常 无 聊 ， 以 至 于 她 会 永远 这 样 浏览 网 页 9 。 

如 果 使 用 更 有 条 理 的 方式 解释 ，Alice 使 用 如 下 算法 浏览 网 络 ， 

1) 选择 介 于 0 和 1 之 间 的 一 个 随机 数 r。 

2) 如 果 r <A: 点 击 “surprise me”, 

3) WRr>A, 随机 点 击 当 前 页 面 中 的 一 个 链接 。 

4) 重新 来 一 遍 。 

一 般 假 定 4 非 常 小 ， 这 样 Alice 点 击 链接 的 概率 比 点 击 “surprise me” 的 可 能 性 大 很 多 。 虽 
然 Alice 训 览 网 页 的 路 径 是 随机 的 ， 但 她 仍然 更 多 地 看 到 受 欢 迎 的 网 页 。 原 因 是 Alice 通 常 受 链 
接 引 导 ， 而 链接 倾向 于 指向 受 欢迎 的 网 页 。 因 此 ， 期 望 看 到 Alice 访 问 大 学 站 点 的 次 数 多 于 个 
人 站 点 ， 但 是 少 于 CNN 站 点 。 

假设 CNN 公 布 的 一 个 故事 中 含有 指向 一 个 教授 网 页 的 链接 。 这 时 Alice 也 更 有 可 能 访问 这 
个 教授 的 网 页 ， 因 为 她 频繁 地 访问 CNN 的 网 站 。CNN 中 的 一 个 链接 比 其 他 不 那么 受 欢 迎 的 站 
点 中 的 数 百 个 链接 更 能 影响 Alice 的 行为 ， 因 为 Alice 访 问 CNN 的 次 数 比 那些 其 他 站 点 多 得 多 。 

特殊 的 “surprise me” 按 钮 可 以 保证 Alice 最 终 访问 到 互联 网 上 所 有 的 网 页 9 。 因 为 她 计 
划 长 时 间 地 浏览 网 页 ， 并 且 网 页 数目 是 有 限 的 ， 因 此 她 会 很 多 次 地 访问 每 个 网 页 。 然 而 有 可 
能 她 访问 一 个 受 欢迎 网 站 的 次 数 比 访问 一 个 不 受 欢迎 的 网 站 多 上 千 倍 。 注 意 ， 如 果 没 有 
“surprise me” 按 钮 ， 她 有 可 能 会 停 沾 在 一 个 没有 链接 的 网 页 上 ， 或 者 一 个 有 链接 但 链接 不 指 
向 其 他 网 页 的 网 页 ， 又 或 者 是 一 些 构 成 循环 链接 的 网 页 上 。 指 向 前 两 种 网 页 的 链接 称 为 虚 链 
(dangling link) 。 l 

Bik AlicetE EI SEM TRUER, CRIP RP AEM FA BS ERER 4R 
走 进 去 时 她 正在 看 CNN 网 页 的 概率 有 多 大 ， 这 个 概率 是 CNN 的 PageRank。 每 一 个 互联 网 上 的 
网 页 都 有 一 个 PageRank， 这 个 值 由 网 页 的 链接 结构 唯一 决定 。 如 这 个 例子 所 示 ，PageRank 能 
够 区 分 受 欢迎 的 网 页 (有 很 多 入 链 的 网 页 ， 或 者 有 来 自 受 欢迎 网 页 的 入 链 的 网 页 ) 和 不 受 欢 
迎 的 网 页 。PageRank 值 可 以 帮助 搜索 引 警 筛选 包含 “eBay” 的 数 百 万 个 网 页 ， 找 到 最 受 欢迎 
的 那个 (http://www.ebay.com) 。 

为 了 得 到 PageRank 的 合理 估计 ，Alice 需 要 点 击 成 
千 上 万 亿 次 链接 ， 因 此 不 能 依靠 人 得 到 PageRank。 幸 运 
的 是 ， 可 以 采用 更 有 效率 的 方法 计算 PageRank。 

假设 目前 网 络 上 只 有 三 个 网 页 : A、B 和 C。 又 假设 
A 链 向 B 和 C，B 链 向 C，C 链 向 A， 如 图 4-10 所 示 。 

页 面 C 的 PageRank， 即 Alice 浏 览 这 个 网 页 的 概率 ， 
,依赖 于 A4 和 B 的 PageRank。 由 于 给 定 网 页 ，Alice 随 机 点 
击 所 有 链接 ， 如 果 她 从 A 开始 ， 那 么 有 50% 的 可 能 她 会 ”图 410 一 个 只 包含 三 个 网 页 的 “互联 网 ” 
进入 C (由 于 4 有 2 个 链接 ) 。 换 句 话说 ， 每 个 网 页 桩 例 。 箭 头 表示 网 责问 的 链接 








© ”PageRank 计算 过 程 对 应 于 寻找 在 网 络 图 中 随机 游 动 (random walk) 的 稳定 概率 分 布 。 一 个 随机 游 动 是 马 
尔 可 夫 链 (Markov chain) 的 一 个 特例 ， 下 一 个 状态 (下 一 个 要 访问 的 网 页 ) 只 和 当前 状态 (当前 网 页 ) 
相关 。 可 能 到 达 的 网 页 由 链接 决定 ， 并 且 概 率 相同 。 

© “surprise me” 按 钮 使 这 个 随机 游 动 模型 称 为 一 个 遍历 (ergodic) 马尔 可 夫 链 ， 保 证 PageRank 的 迭代 计算 
最 终 会 收敛 。 
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PageRank 平 均 分 配给 所 有 的 向 外 链接 。 如 果 忽 略 “surprise me”， 意 味 着 C 的 PageRank， 表 示 
为 PR(C)， 可 以 按 下 面 公式 计算 ， 


PRA) , PR(B) 
1 


更 一 般 地 ， 可 以 按 下 面 公式 计算 任何 网 页 u 的 PageRank: 
PRU = DAT 


PR(C) = 


PB RAR URS, LATS ea ee (不 考虑 重复 的 链接 )。 

一 个 明显 的 问题 是 ， 不 知道 这 些 网 页 的 PageRank， 因 为 正在 尝试 得 到 它们 。 如 果 开 始 假 
设 所 有 网 页 的 PageRank 是 相同 的 (例子 中 的 情况 为 /3)， 那 么 很 显然 ， 可 以 通过 多 次 迭代 计 
算 ， 比 如 ， 第 一 次 迭代 时 ，PR(C)=0.33/240.33=0.5，PR(4)=0.33，PR(B)=0.17。 下 一 次 迭代 
时 ，PR(C)=0.33/2+0.17=0.33，PR(4)=0.5，PR(B)=0.17。 第 三 次 迭代 时 ，PR(C)=0.42， 
PR(4)=0.33，PR(B)=0.25。 通 过 更 多 次 迭代 ，PageRank 值 收敛 到 最 终 的 PR(C)=0.4，PR(4)= 
0.4, PR(B)=0.2, 

GORA “surprise me” 按 钮 ， 页 面 C 的 PageRank 的 一 部 分 来 自 于 按 这 个 按钮 达到 C 的 概 
率 。 假 定 当 按 这 个 按钮 时 ， 进 入 任何 网 页 的 概率 为 /3， 那 么 对 C 的 PageRank 的 贡献 为 NW3。 这 
意味 着 现在 C 总 共 的 PageRank 为 : 

à PR(A) PR(B) 
PRC) =Z -A (SF + 


类 似 地 ， 一 般 的 PageRank 公 式 为 : 
A a_a. o ZRO) 
PR) = + (1 A) 2 L 


BP NER EEA TB. A—R0.15, 
这 个 公式 也 可 以 表达 为 矩阵 等 式 : 
R= TR 


其 中 R 为 PageRank 向 量 ，7 为 随机 游 走 模型 转移 概率 矩阵 。 元 素 Ty 表示 从 网 页 ;进入 网 页 /的 概 
率 ， 并 且 


T+ ?元 


ARABARRI, 你 可 能 知道 R 是 矩阵 了 的 特征 向 量 (eigenvector)。 

图 4-11 给 出 计算 PageRank 的 一 些 伪 代码 。 这 个 算法 的 输入 是 一 个 图 G。 图 由 顶点 和 边 构成 ， 
因此 G = (V, E)。 在 此 ， 顶 点 表示 网 页 ， 边 表示 链接 ， 因 此 伪 代 码 中 使 用 字母 P 和 L。 使 用 (p, 
q) 表示 一 个 链接 ， 其 中 p 和 4 分 别 是 源 网 页 和 目标 网 页 。4 不 存在 的 链接 为 虚 链 ， 假 设 虚 链 都 
被 删除 。 不 含有 出 链 的 页 面 称 为 rank sinks， 因 为 它们 累积 PageRank 值 却 不 分 配 出 去 。 在 这 个 
算法 中 ， 假 设 这 些 页 面 存在 指向 集合 中 所 有 页 面 的 链接 。 

第 一 步 是 猜测 每 个 页 面 的 PageRank。 由 于 没有 更 好 的 信息 ， 因 此 只 是 假设 每 个 页 面 的 
PageRank 相 同 。 又 由 于 所 有 网 页 的 PageRank 和 为 1， 因 此 在 输入 向 量 / 中 每 个 页 面 的 PageRank 
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赋 为 IIPI。 另 一 种 方法 使 用 一 个 和 人 链 数 有 关 的 值 ， 可 能 会 使 收敛 更 快 。 











1: procedure PageRank(G) 

2: > G 表 示 网 络 图 ， 由 顶点 〈 网 页 ) 和 边 (链接 ) 构成 
3: (P,L) -G 户 将 图 分 解 为 网 页 和 链接 
4: 了 一 长 度 为 |PI 的 向 量 户 当前 的 PageRank 估 值 

5: Ravector of length IPI 户 更 好 的 PageRank 佑 计 结 果 

6: ” forall 元素, E Ido 

7 I, WPI D> 开始 时 每 个 网 页 的 PageRank 相 同 
8: end for 

9: while R 没 有 收敛 do 

10: for all 元 素 RI,ER do 

11: R; ~ MIPI 户 随 机 选择 每 个 网 页 的 概率 为 MiPl 
12: end for 

13: for all 网 页 pEP do 

14: Q 一 满足 P, q) EL 并 且 4 E P 的 网 页 p 的 集合 

15: if IQI > 0 then 

16: for all 网 页 EC do 

17: R, 一 R +A > “RT RT pHa I, 
18: end for 

19: else 

20: . for all WITI q E P do 

21: R, — R, + (1 — AVL IPI 

22: end for 

23: end if 

24: IR > 更 新 当前 的 PageRank 佑 计 值 
25: end for 

26: end while 

27: return R 





28: end procedure 





图 4-11 PageRank RARE 


每 次 迭代 时 ， 首 先 创 建 一 个 结果 向 量 R， 并 且 每 个 元 素 为 NIPI。 这 是 通过 随机 跳动 方式 进 
入 每 个 网 页 的 概率 。 下 一 步 是 计算 通过 点 击 链 接 进入 一 个 网 页 的 概率 。 对 P 中 的 每 一 个 网 页 进 
行 迭 代 。 对 每 一 个 网 页 ， 获 取 正 处 在 这 个 网 页 的 估计 概率 。 从 这 个 网 页 出 发 ， 用 户 随 机 跳动 
的 可 能 性 是 和， 而 点 击 某 一 个 链接 的 概率 为 1 入。 共有 IQI 个 可 选 链接 ， 因 此 跳 到 网 页 9qe8 的 概 
率 是 (1 一 人 )1W181。 将 元 素 Rqg 加 上 这 个 数 。 当 没有 向 外 链接 时 ， 假 设 用 户 随机 跳动 ， 所 以 ， 所 有 
IPI 个 网 页 平均 分 配 概率 (1- 和 1,。 

简 而 言 之 ，PageRank 是 使 用 查询 无 关 的 元 数据 提高 网 页 搜索 的 排序 效果 的 一 个 重要 例子 。 
网 页 的 PageRank 和 具体 的 查询 无 关 。 搜 索引 擎 使 用 PageRank 优 先 选 择 PageRank 较 高 的 网 页 ， 
而 不 是 假设 所 有 的 网 页 满足 查询 的 可 能 相同 。 然 而 在 网 页 搜索 中 ，PageRank 并 没有 传统 方法 
重要 ， 它 只 是 排序 中 使 用 的 很 多 特征 之 一 。 但 是 ， 它 往往 对 流行 的 查询 影响 最 大 ， 这 是 一 个 
有 用 的 性 质 。 

与 PageRank 同 一 时 期 发 展 起 来 的 链接 分 析 的 HITSS 算 法 (Kleinberg，1999)， 同 样 很 有 
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影响 。 这 个 算法 估计 一 个 网 页 的 内 容 的 值 (权威 度 ，authority value) 和 链 疝 其 他 网 页 的 值 
(hub value)。 和 PageRank 类 似 ， 算 法 只 利用 链接 结构 信息 来 迭代 计算 这 两 个 值 。 与 PageRank 
不 同 的 是 ，HITS 算 法 只 对 给 定 查 询 检 索 出 来 的 网 页 子 集 合计 算 这 两 个 值 S。 从 对 排序 效果 的 
影响 来 看 ， 这 是 HITS 算 法 的 优势 ， 但 是 如 果 搜 索引 警 的 查询 量 很 大 时 ， 计 算 量 便 太 大 了 。 


4.5.3 链接 质量 


众所周知 ，PageRank 和 锚 文 本 抽取 等 技术 已 经 在 商业 搜索 引擎 中 使 用 ， 因 此 肆 无 总 异 的 
网 页 设计 者 便 尝试 创建 无 用 的 链接 ， 以 提高 他 们 网 页 在 搜索 结果 中 的 位 置 。 这 叫做 链接 垃圾 
(link spam)。 然 而 甚至 典型 的 用 户 也 能 无 意识 地 轧 弄 简单 的 搜索 引擎 技术 。 对 此 有 一 个 与 博 
客 有 关 的 明显 例子 。 . 

很 多 博客 帖子 都 是 评价 其 他 博客 的 帖子 。 假 设 作者 4 读 了 作者 8 的 博客 上 的 一 篇 名 叫 b 的 帖 
子 。 作 者 A 可 能 写 了 一 个 新 的 帖子 , 称 为 4， 其 中 包含 了 指向 帖子 b 的 链接 。 在 写 帖子 的 过 程 中 ， 
作者 A 可 能 对 作者 8B 博客 中 的 帖子 bp 中 发 布 了 一 个 反 向 引用 (trackback) 。 反 向 引用 是 一 种 特殊 
的 评论 ， 它 可 以 通知 作者 B， 有 一 个 回复 被 发 布 在 作者 A 的 博客 上 。 


博客 B 





图 4-12 博客 发 帖 过 程 中 的 反 向 引用 


如 图 4-12 所 示 ， 帖 子 4 和 b 产 生 了 一 个 循环 。 帖 子 a 链 向 帖子 hp， 而 帖子 bp 中 又 包含 一 个 指向 
帖子 a 的 反 向 引用 。 直 觉 上 会 认为 帖子 b 是 有 影响 力 的 ， 因 为 作者 A 决定 讨论 它 。 但 是 从 
PageRank 的 角度 ，a 和 Bb 彼此 链接 ， 因 此 两 个 有 同样 的 影响 力 。 这 儿 的 问题 是 ， 反 向 引用 和 其 
他 出 现在 帖子 中 的 链接 在 本 质 上 不 相同 。 

博客 的 评论 部 分 也 可 以 是 链接 垃圾 的 来 源 。 网 页 作者 为 了 增强 他 们 的 网 页 ， 也 许 会 在 比 
较 流行 的 博客 的 评论 部 分 ， 发 布 指向 他 们 网 页 的 链接 。 基 于 对 PageRank 的 讨论 ， 可 以 获知 一 
个 流行 网 站 包含 的 链接 可 以 让 另 一 个 网 站 似乎 更 加 重要 。 因 此 垃圾 制造 者 们 很 喜欢 这 种 评价 
部 分 。 

面 对 这 种 情况 ， 搜 索引 擎 公司 的 一 个 解决 方法 是 ， 自 动 地 发 现 这 些 评价 部 分 ， 并 且 在 建 
索引 时 有 效 地 忽略 其 中 链接 。 另 一 种 更 简单 的 办 法 是 ， 要 求 网 站 拥有 者 将 不 重要 的 链接 标记 


O “与 查询 无 关 的 HITS 算 法 和 与 话题 相关 的 PageRank 也 已 经 被 定义 了 。 
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出 来 ， 以 便 被 搜索 引擎 识别 。“rel=nofollow” 链 接 属性 便 来 源 于 此 。 
目前 大 部 分 博客 软件 都 被 设计 成 让 博客 评论 部 分 的 链接 包含 "rel=nofollow" 属 性 。 因 此 ， 
下 面 的 帖子 : 


Come visit my <a href="http://www.page.com">web page</a>. 


变 成 如 下 : 


Come visit my <a rel=nofollow href="http://www.page.com">web page</a>. 


这 个 链接 会 在 博客 中 显示 出 来 ， 但 是 搜索 引擎 会 忽略 所 有 标记 了 "rel=nofollow "的 链接 ， 
这 样 可 以 帮助 更 好 地 计算 PageRank 和 抽取 锚 文 本 。 


4.6 信息 抽取 


信息 抽取 是 一 种 从 文本 中 抽取 结构 化 信息 的 语言 技术 。 很 多 应 用 都 使 用 信息 抽取 ， 尤 其 
是 文本 数据 挖掘 (text data mining)。 对 于 搜索 应 用 而 言 ， 信 息 抽 取 的 最 主要 用 途 是 ， 识 别 搜 
索引 敬 用 来 提高 排序 效果 的 特征 。 一 些 人 推测 信息 抽取 技术 最 终 会 做 到 从 文本 中 抽取 重要 信 
息 ， 存 储 到 结构 化 的 表格 中 ， 从 而 将 文本 搜索 问题 转变 成 数据 库 问题 。 但 是 目前 的 技术 距离 
这 个 目标 还 很 远 。 

已 经 讨论 过 的 一 些 文本 处 理 过 程 可 以 认为 是 信息 抽取 ， 比 如 识别 名 词 短语 、 标 题 甚至 变 
成 粗 体 的 文本 。 在 这 些 例 子 中 ， 一 部 分 文本 被 识别 出 有 某 种 特性 ， 而 这 种 特性 可 以 用 一 种 标 
记 语 言 来 描述 ， 如 XML。 如 果 一 个 文档 已 经 使 用 了 HTML 或 XML 来 描述 ， 那 么 识别 一 些 结构 
特征 (如 标题 ) 就 很 直接 。 但 是 其 他 的 特征 ， 如 短语 ， 在 使 用 标记 语言 标注 (annotate) 之 前 
需要 额外 的 处 理 。 在 一 些 应 用 中 ， 比 如 文档 集合 通过 OCR ( 光 字 符 阅 读 器 ) 输入 ， 这 些 文档 
不 包含 标记 ， 因 此 最 简单 的 结构 如 标题 ， 也 需要 识别 和 标注 。 

这 些 类 型 的 特征 非常 普遍 ， 但 是 目前 信息 抽取 大 多 数 关 注 于 研究 具有 特殊 语义 内 容 的 特 
征 ， 如 命名 实体 (named entity), XA (relationship) 和 事件 (event)。 虽 然 所 有 这 些 特征 都 
包含 重要 的 信息 ,但 搜索 应 用 最 经 常 使 用 的 是 命名 实体 识别 (named entity recognition), — 
个 命名 实体 是 表达 特定 应 用 感 兴趣 的 某 一 个 事物 的 词 或 词 序列 。 最 一 般 的 例子 是 人 名 、 公 司 
或 机 构 名 、 地 名 、 时 间 和 日 期 表达 式 、 数 量 和 货币 值 。 很 容易 想到 其 他 对 某 些 特定 应 用 有 意 
义 的 实体 。 例 如 ， 对 于 一 个 电子 商务 应 用 ， 在 网 页 和 评论 中 识别 产品 名 和 型 号 是 很 必要 的 。 
在 一 个 医药 应 用 中 ， 识别 药 名 、 剂 量 和 医疗 条 件 可 能 很 重要 。 识 别 和 标注 这 些 特 殊 的 特征 ， 
有 时 称 为 语义 标注 (semantic annotation) 。 一 些 识别 出 的 实体 通过 小 平面 技术 (facet) 直接 
应 用 于 搜索 中 ( 见 第 6 章 ) ， 而 其 他 的 实体 则 作为 浏览 搜索 结果 的 一 部 分 使 用 。 一 个 后 者 的 例 
子 是 搜索 引擎 可 以 识别 网 页 中 的 地 址 ， 并 提供 指向 相应 信息 的 链接 。 


Fred Smith, who lives at 10 Water Street, Springfield, MA, is a long-time 
collector of tropical fish. 


<p ><PersonName><GivenName>Fred</GivenName> <Sn>Smith</Sn> 


</PersonName>, who lives at <address><Street >10 Water Street</Street>, 
<City>Springfield</City>, <State>MA</State></address>, is a long-time 
collector of <b>tropical fish.</b></p> 





图 4-13 信息 抽取 标记 的 文本 
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图 4-13 给 出 一 句 话 以 及 它 对 应 的 信息 抽取 后 的 XML 标注 结果 。 这 个 例子 中 ， 抽 取 工 作 通 
过 一 个 很 有 名 的 字 处 理 程序 完成 9。 除 了 通常 的 结构 标记 (<p> 和 <b>)， 很 多 其 他 的 标记 被 增 
加 进来 ， 以 说 明 哪 些 词 是 命名 实体 的 一 部 分 。 例 如 在 这 个 例子 中 ， 文 本 中 识别 出 一 个 地 址 ， 
包括 一 个 街道 (“10 Water Street”)、 一 个 城市 (“Springfield”) 和 一 个 州 (“MA”). 

建立 命名 实体 识别 器 主要 有 两 种 方法: 基于 规则 的 方法 和 基于 统计 的 方法 。 一 个 基于 规 
则 的 识别 器 使 用 一 个 或 多 个 词典 〈lexicon， 词 和 短语 列表 ) 对 名 字 分 类 。 例 子 如 地 名 (如 镇 
F. 城市 、 州 、 国 家 、 名 胜 古 迹 )、 人 名 (名 、 姓 ) 和 组 织 名 〈 如 公司 、 政 府 机 构 、 国 际 组 织 ) 。 
如 果 这 些 列表 范围 足够 广泛 ， 很 多 抽取 可 以 简单 地 通过 查找 实现 。 然 而 在 很 多 情况 下 ， 规 则 
和 模板 被 用 来 核对 一 个 实体 名 ， 或 者 发 现 不 在 列表 中 的 新 实体 。 比 如 ， 一 个 模板 如 
“<number> <word> street” 可 以 用 来 识别 街道 地 址 。 假 如 一 个 名 字 在 地 名 词典 中 作为 城市 名 
出 现 ， 模 板 如 “<street address>、<city>” 或 “in <city>”， 可 以 用 来 确认 它 确实 是 一 个 城市 
名 。 类 似 地 ， 一 个 模板 如 “<street address>、<city>、<state>”， 也 可 以 用 来 识别 不 在 词典 中 
出 现 的 新 城镇 。 新 任命 可 以 通过 过 规则 如 “<title> <name>” 识 别 ， 其 中 <title> 可 能 包含 如 
“President”"、“Mr.” 和 “CEO” 的 词 。 在 区 分 大 小 写 的 文本 中 ， 抽 取 名 字 一 般 简 单一 些 ， 因 
为 名 字 一 般 都 大 写 。 然 而 很 多 应 用 都 会 将 文本 转化 为 全 部 大 写 或 全 部 小 写 。 使 用 模板 的 规则 
通过 人 工 得 到 ， 经 常 需要 反复 试验 不 断 摸索 ， 然 而 可 以 使 用 一 个 最 初 的 规则 集合 作为 种 子 
(seed) ， 然 后 使 用 一 个 自动 的 学 习 过 程 发 现 新 的 规则 有 

一 个 统计 的 命名 实体 识别 器 对 实体 内 部 和 周围 的 词 建 立 统计 模型 ， 使 用 人 工 标注 的 文本 
语 料 训 练 这 个 模型 。 建 立 这 种 模型 存在 很 多 不 同 的 方法 ， 但 是 由 于 其 重要 性 ， 在 此 简单 介绍 
隐 马 尔 可 夫 模 型 (Hidden Markov Model, HMM) 方法 。HMM 被 用 在 很 多 语音 和 语言 处 理应 
用 中 。 比 如 ， 词 性 标注 器 就 可 以 使 用 这 个 方法 实现 。 
基于 隐 马 尔 可 夫 模 型 的 信息 抽取 

信息 抽取 最 困难 的 部 分 之 一 ， 是 词语 可 以 有 很 多 不 同 的 意思 。 比 如 ,“Bush” 可 以 表达 一 
种 植物 或 一 个 人 。 辐 样 , “Marathon” 可 以 是 比赛 的 名 字 或 位 于 希腊 的 一 个 地 方 名 。 基 于 这 个 
词 的 上 下 文 〈 即 周围 的 词 ) ， 人 们 可 以 分 辨 出 这 些 不 同 的 意思 。 比 如 ， 如 果 “Marathon” 前 面 
的 词 是 “Boston”， 它 的 意思 几乎 肯定 是 比赛 名 。 可 以 使 用 一 个 具有 马尔 可 夫 性 质 (Markov 
property) 的 过 程 ， 来 对 文本 中 的 词 序列 的 生成 (generation) 9 建 模 ， 从 而 形式 化 描述 词 的 上 
下 文 。 马 尔 可 夫 性 质 意味 着 ， 序 列 中 下 一 个 词 的 生成 只 依赖 于 前 面 较 少 的 儿 个 词 。 . 

更 正式 地 说 ,一 个 马尔 可 夫 模 型 (Markov Model) 使 用 状态 (state) 集合 和 状态 间 的 转 
移 (transition) 来 描述 一 个 过 程 。 每 一 个 转移 都 关联 一 个 概率 。 ems 
于 当前 状态 和 转移 概率 。 在 隐 马 尔 可 夫 模 型 中 ， 每 一 个 状态 产生 一 个 可 能 的 输出 集合 ， 
个 输出 也 有 一 个 与 转移 相关 的 概率 。 
” ”图 4-14 给 出 一 个 状态 图 (state diagram) ， 表 示 一 个 命名 实体 识别 器 可 以 使 用 的 非常 简单 
的 句子 生成 模型 。 这 个 模型 中 ， 假 定 句子 中 的 词 要 么 是 一 个 命名 实体 的 一 部 分 (这 个 例子 中 
是 人 名 、 结 构 名 或 地 名 )， 要 么 不 是 。 每 一 个 实体 类 别 使 用 一 个 状态 表示 ， 每 个 词 之 后 ， 系 统 


© Microsoft Word, 

© GATE (http://gate.ac.uk) 是 一 个 开源 的 工具 包 ， 它 提供 了 一 个 信息 抽取 架构 和 一 个 可 以 针对 特定 应 用 定制 抽 
取 过 程 的 环境 。 

© ”第 7 章 将 详细 介绍 生成 模型 (generative model), 
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可 能 停留 在 当前 状态 〈 环 状 箭头 表示 ) ， 或 者 转移 到 另 一 个 状态 。 有 两 个 特殊 的 状态 分 别 表示 
句子 的 开始 和 结束 。 每 一 个 状态 表示 一 个 实体 类 别 ， 与 每 一 个 状态 相关 联 的 是 一 个 属于 这 个 
类 别 的 词 序列 的 概率 分 布 。 


<every entity 


category> 





图 4-14 统计 实体 抽取 器 的 句子 模型 


这 个 模型 的 一 个 可 能 应 用 是 构建 新 的 句子 。 假 设 从 开始 状态 出 发 ， 根 据 开 始 状态 的 转移 
概率 表 随 机 选择 下 一 个 状态 。 例 如 ， 可 能 转移 到 对 应 人 名 的 状态 。 一 旦 进入 对 应 人 名 的 状态 ， 
则 根据 人 名 状态 的 输出 概率 分 布 选择 一 个 输出 。 假 设 输出 为 “Thomas”， 这 个 过 程 一 直 继 续 ， 
每 一 步 转 移 到 一 个 新 的 状态 ， 然 后 产生 一 个 输出 。 最 终 的 结果 是 一 个 状态 集合 和 它们 对 应 的 
输出 。 

虽然 这 样 的 模型 可 以 用 来 产生 新 的 旬 子 ,但 它 更 经 常 地 用 来 识别 句子 中 的 实体 。 方 法 是 ， 
给 定 一 个 句子， 找到 一 个 实体 类 别 序列 ， 使 得 产生 这 个 句子 的 概率 最 大 。 只 有 状态 转移 时 产 
生 的 输出 是 可 见 的 (可 以 被 观察 到 ) ， 潜在 的 状态 是 隐藏 的 《“hidden")。 例 如 ， 对 于 图 4-13 
这 种 的 句子 ， 识 别 器 将 找到 当 状态 序列 为 


<start><name><not-an-entity><location><not-an-entity><end> 


时 ， 对 于 那个 模型 ， 其 概率 最 高 。 与 序列 中 的 实体 类 别 相关 联 的 词 将 会 被 标记 出 来 。Viterbi 算 法 
(Viterbi algorithm) 9 可 以 在 HMM 模 型 中 找到 最 大 概率 的 状态 序列 ， 它 属于 一 种 动态 规划 算法 。 
使 用 这 种 方法 识别 命名 实体 的 核心 问题 是 ， 句 子 模型 中 的 概率 必须 从 训练 数据 估计 出 来 。 
为 了 估计 转移 和 输出 概率 ， 使 用 人 工 标注 了 正确 实体 标签 的 文本 作为 训练 数据 。 从 这 个 训练 
数据 ， 可 以 直接 估计 出 某 个 类 别 产 生词 的 概率 (输出 概率 ) 和 类 别 之 间 的 转移 概率 。 为 了 建 
立 更 准确 的 识别 器 ， 模 型 包含 和 命名 实体 紧密 联系 的 特征 ， 如 大 写 的 词 和 由 数字 组 成 的 词 。 
另外 ， 转 移 概率 同时 依赖 于 前 一 个 词 和 前 一 个 类 别 S。 例 如 ， 词 “Mr.” 的 出 现 ， 增 加 了 下 一 
个 类 别 是 “人 名 (Person)” 的 概率 。 

虽然 这 样 的 训练 数据 在 构建 准确 的 HMM 时 很 有 用 , 但 是 构建 这 样 的 数据 需要 很 大 的 人 力 。 
为 了 准确 估计 模型 参数 ， 需 要 标注 大 约 一 百 万 词 的 数据 ， 相 当 于 1 500 多 个 新 闻 报 道 。 比 起 为 


日 ”为 了 纪念 电气 工程 师 Andrew Viterbi 而 命名 。 
© Bikel 等 (1997) 描述 了 第 一 个 基于 HMM 方 法 的 命名 实体 识别 器 。 
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了 抽取 简单 特征 而 构建 规则 集合 而 言 ， 这 将 需要 多 很 多 的 工作 。 基 于 规则 和 基于 统计 的 方法 ， 
对 人 名 、 机构 名 和 地 名 的 识别 准确 率 都 可 以 达到 约 90% S， 然而， 基于 统计 的 方法 一 般 要 更 好 。 
其 他 类 别 的 实体 ， 如 产品 名 ， 识 别 起 来 要 困难 得 多 。 选 择 哪 种 命名 实体 识别 方法 取决 于 实际 
应 用 、 可 用 的 软件 和 有 多 少 标注 者 。 

有 趣 的 是 ， 没 有 证 据 证 明 命 名 实体 对 通用 搜索 引擎 有 帮助 。 命 名 实体 识别 是 问答 系统 中 
很 关键 的 部 分 ， 对 于 特定 领域 或 者 垂直 搜索 引擎 中 的 术语 识别 和 索引 ， 也 可 能 很 重要 。 在 一 
些 应 用 ， 如 本 地 搜索 引擎 、 分 析 查 询 时 ， 或 者 作为 一 种 理解 和 浏览 搜索 结果 的 工具 时 ， 命 名 
实体 识别 也 会 很 有 用 。 


4.7 国际 化 


全 世界 都 在 使 用 互联 网 ， 并 非 只 有 英语 使 用 者 在 使 用 。 尽 管 旧 前 有 65% ~70% 的 网 页 采用 
了 英语 ， 但 这 个 比例 一 直 在 下 降 。 超 过 一 半 的 网 络 使 用 者 ， 在 搜索 网 页 的 时 候 不 把 英语 作为 
主要 的 语言 。 其 他 的 应 用 如 桌面 搜索 和 企业 搜索 ， 每 天 都 在 很 多 语言 中 使 用 。 即 使 一 个 针对 
大 多 数 使 用 者 讲 英语 而 设计 的 软件 ， 在 其 数据 库 中 也 可 能 有 很 多 非 英语 文档 。 尝 试 在 你 最 喜 
爱 的 网 络 搜索 引擎 中 使 用 “poissons tropicaux” (tropical fish) 查询 ， 看 看 检索 出 了 多 少 法 语 
AGS. 

一 个 单 语 (monolingual) 搜索 引擎 ， 如 它 的 名 字 所 隐 含 的 那样 ， 是 指 一 个 针对 特定 语言 
设计 的 搜索 引擎 但。 本 书 中 讨论 的 很 多 索引 技术 和 检索 模型 ， 对 于 任何 语言 都 适用 ， 各 种 语 
言 的 差异 对 搜索 引 敬 设计 影响 最 大 的 ， 是 为 搜索 建立 索引 项 的 文本 处 理 过 程 。 

如 前 面 的 章节 所 述 ， 字 符 编 码 是 搜索 引擎 处 理 非 英语 语言 时 的 核心 问题 。Unicode 成 为 软 
件 国际 化 中 一 种 主导 的 字符 编码 标准 。 


其 他 文本 处 理 步骤 也 需要 根据 不 同 语言 而 改变 。 已 经 | 1. 原始 文本 
讨论 过 词 干 提取 对 于 变形 繁多 的 语言 很 重要 ， 但 是 每 种 语 | 早 灾 在 中 国 造成 的 影响 
言 需 要 不 同 的 词 干 提取 器 。 词 素 切 分 对 于 很 多 语言 也 很 重 。 | Pen in china) 


， 尤 其 是 CJK 。 对 于 这 些 语 言 ， 核 心 问 题 是 分 讨 2. 分 词 
要 ， 尤 其 是 CE 家族。 对 于 这 些 请 言 ， 核 心 问题 是 分 词 | 旱灾 在 中 国 造成 的 影响 


(word segmentation) ， 需 要 在 连续 的 字符 串 中 识别 出 词 或 drought at china make impact 
者 索引 项 的 分 割 点 (一般 没 有 空白 符 )。 作 为 分 词 的 另 一 3, 二 元 组 





种 选择 ， 有 人 对 相互 重 伙 的 字 二 元 组 建 索 引 。 图 4-15 中 给 旱灾 kE 在 中 pE 国 造 
出 了 文本 “旱灾 在 中 国 造成 的 影响 ”的 分 词 和 二 元 组 结果 。 | ARBRE Ee 

虽然 基于 二 元 组 的 搜索 效果 很 不 错 ， 但 很 多 应 用 还 是 优先 一 一 一 一 一 
采用 分 词 ， 因 为 很 多 二 元 组 并 不 对 应 真正 的 词 。 如 果 有 足 图 4-15 汉语 分 词 和 一 元 组 
够 的 训练 数据 ， 可 以 使 用 统计 方法 实现 分 词 技术 ， 如 隐 马 尔 科 夫 模 型 。 在 其 他 语言 中 ， 分 词 
也 是 一 个 问题 。 人 例如， 德语 中 有 很 多 复合 词 (如 “fischzuchttechniken” 表 示 “fish farming 


techniques”) ， 需 要 被 切 分 然后 建 索引 。 
总 的 来 讲 ， 如 果 有 了 这 些 工 具 ， 对 这 些 主 要 的 语言 建立 一 个 搜索 引擎 并 不 困难 。 对 于 在 











日 ”意思 是 ， 识 别 出 来 的 10 个 实体 中 有 9 个 是 对 的 ， 并 且 10 个 已 知 实体 中 有 9 个 被 识别 出 来 。 衡 量 指标 的 细节 参 
见 第 8 章 。 

日 ”当然 ， 如 果 使 用 一 个 法 语 版 本 的 搜索 引擎 如 http:/fr.yahoo.com， 找 到 的 法 语 网 页 会 多 得 多 。 

仿 “” 将 在 6.4 节 讨论 跨 语 言 搜索 引擎。 
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网 络 上 有 足够 多 在 线 文 本 的 任何 语言 都 是 如 此 ， 因 为 这 些 文本 可 以 用 来 建立 和 测试 搜索 引擎 
的 组 成 部 分 。 然 而 对 于 很 多 所 谓 “ 低 密度 ”的 语言 而 言 ， 也 许 有 很 多 人 讲 这 个 语言 ， 但 是 在 
线 的 资源 却 很 少 ， 对 这 些 语言 建立 有 效 的 搜索 引擎 是 一 个 挑战 。 

参考 文献 和 深入 阅读 

文本 和 文档 集合 的 性 质 和 统计 已 经 研究 了 很 长 时 间 , 这 种 研究 称 为 文献 计量 (bibliometrics ) , 
作为 图 书馆 和 情报 科学 (library and information science) 的 一 部 分 。 情 报 科学 杂志 ， 如 
Journal of the American Society of Information Science and Technology (JASIST) 或 
Information Processing and Management (IPM) ， 包 括 很 多 这 个 领域 的 论文 。 信 息 检 索 从 一 开 
始 就 强调 文本 的 统计 特性 ,并 且 信 息 检 索 和 情报 科学 的 研究 者 们 一 直 并 肩 工作 。Belew (2000) 
从 认 知 的 角度 ， 很 好 地 讨论 了 齐 普 夫 法 则 和 文本 的 其 他 性 质 与 IR 的 关系 。 随 着 1990 年 开始 转 
移 到 统计 方法 ， 自 然 语 言 处 理 (natural language processing) 领域 的 研究 者 也 开始 对 研究 文本 
的 统计 特性 感 兴趣 。Manning 和 Sch iitze (1999) 总 结 了 从 这 个 角度 观察 得 到 的 文本 统计 性 质 。 
Ha、Sicilia-Garcia、Ming 和 Smith (2002) 给 出 一 个 有 趣 的 结果 ， 表 明 短 语 (或 n-gram) 一 般 
也 遵守 齐 普 夫 法 则 ， 并 且 将 短语 和 词 结合 ， 可 以 更 好 地 预测 排名 靠 前 时 的 频率 。 

Anagnostopoulos、Broder 和 Carmel (2005) 的 论文 给 出 了 估计 查询 结果 集合 大 小 的 方法 ， 
也 指出 了 很 多 这 个 领域 的 相关 文献 。 类 似 地 ，Broder 等 人 (2006) 给 出 如 何 估计 语 料 规模 ， 
并 且 跟 以 前 的 方法 做 了 比较 。 

关于 词素 切 分 或 者 停 用 词 去 除 的 论文 不 多 ， 它 们 都 被 默认 为 众所周知 ， 因 此 论文 中 一 般 
不 提 及 。 但 是 正如 本 章 指出 的 那样 ， 做 好 这 些 基本 的 步骤 对 于 整个 系统 的 效果 很 关键 。 很 多 
年 来 ， 研 究 者 都 使 用 Van Rijsbergen (1979) 公布 的 停 用 词 词 表 。 当 它 显然 无 法 满足 更 大 规模 
的 TREC 集 合 时 ， 由 马萨诸塞 大 学 开发 并 随 Lemur 工 具 包 一 起 发 布 的 一 个 停 用 词 词 表 被 频繁 使 
用 。 如 前 面 提 到 的 ， 这 个 词 表 包含 400 多 个 词 。 对 于 很 多 应 用 来 讲 ， 这 个 词 表 太 长 了 。 

最 初 描 述 Porter stemmer 的 论文 写 于 1979 年 ， 再 版 于 Porter (1997), Krovetz (1993) 的 
论文 描述 了 他 的 词 干 提取 算法 ,但 是 也 采用 了 更 深入 的 方法 研究 形态 学 对 于 词 干 提取 器 的 作 
FAS. Krovetz stemmer 可 以 在 Lemur 网 站 上 获取 。 其 他 语言 的 词 干 提取 器 可 以 从 很 多 不 同 网 站 
上 获取 (包括 Lemur 和 Porter stemmer 网 站 )。 可 以 在 Larkey、Ballesteros 和 Connell (2002) 中 
找到 阿拉 伯 语 词 干 提取 的 方法 描述 。 

在 搜索 中 使 用 短语 的 研究 有 很 入 的 历史 。Croft、Turtle 和 Lewis (1991) 描述 了 使 用 句法 
和 统计 方法 处 理 查询 ， 从 而 获取 短语 的 检索 实验 ， 结 果 显 示 其 效果 和 手动 选择 短语 效果 接近 。 
很 多 参加 TREC 评 测 的 小 组 使 用 短语 作为 搜索 算法 的 一 部 分 〈Voorhees 和 Harman，2005)。 

Church (1998) 描述 了 一 种 建立 统计 (或 随机 ) 词性 标注 器 的 方法 ， 成 为 目前 很 多 标注 
器 的 基石 。 这 个 方法 使 用 人 工 标注 的 数据 训练 出 一 个 词性 序列 概率 模型 及 一 种 词性 对 特定 词 
语 的 概率 。 给 定 一 个 句子 ， 采 用 使 整个 句子 概率 最 高 的 词性 标注 序列 作为 结果 。 这 个 方法 本 
质 上 和 基于 统计 的 实体 抽取 是 相同 的 ， 只 是 将 状态 的 含义 从 实体 类 别 变 成 词性 。Brill 标 注 器 
(Brill, 1994) 是 另 一 种 比较 流行 的 自动 从 标注 数据 学 习 规 则 的 方法 。Manning 和 Sch ü tze 
(1999) 提供 了 关于 词性 标注 方法 的 好 的 综述 。 


日 ”形态 学 (Morphology) 研究 词 的 内 部 结构 ， 而 词 干 提取 是 一 种 词素 处 理 (morphological processing) , 
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在 文献 中 可 以 看 到 很 多 PageRank 的 变形 。 其 中 很 多 都 是 改进 设计 以 提高 计算 效率 或 者 使 
用 在 不 同 的 应 用 中 。 与 话题 相关 的 PageRank 版 本 在 Haveliwala (2002) 中 有 所 介绍 。 
PageRank 和 HITS 都 来 源 于 文献 计量 学 中 提出 的 引用 分 析 算 法 。 

为 了 增强 一 个 超 文本 文档 (如 网 页 ) 的 表示 ， 可 以 使 用 链接 指向 这 个 文档 的 其 他 文档 的 
内 容 ， 这 种 思想 已 经 出 现 一 段 时 间 了 。 例 如 ，Croft 和 Turtle (1989) 提出 了 一 种 基于 合并 相关 
超 文本 文档 的 文本 的 检索 模型 ， 而 Dunlop 和 vanRijsbergen 提 出 检索 包含 少量 文本 内 容 的 文档 
(比如 包含 图 像 的 文档 ) ， 可 以 利用 这 个 文档 链接 的 所 有 文档 中 包含 的 文本 。McBryan (1994) 
首先 提出 只 利用 与 链接 相关 联 的 锚 文 本 的 方法 。 销 文本 被 证 明 对 TREC 评 测 中 一 些 类 型 的 网 络 
搜索 很 关键 ， 如 Ogilvie 和 Callan (2003), 

一 些 在 没有 明显 链接 结构 的 数据 库 中 应 用 链接 分 析 的 方法 被 提出 (KurlandO 和 Lee，2005)。 
在 这 种 情况 下 ， 链 接 是 基于 文档 内 容 的 相似 度 定 义 的 ， 通 过 一 些 相 似 度 衡量 方法 如 余 续 相似 
度 计 算得 到 ( 见 第 7 章 )。 l 

信息 抽取 技术 的 发 展 主要 由 一 些 研究 项 目 如 TIPSTER 和 MUC 推 动 (Cowie 和 Lehnert， 
1996) 。 使 用 命名 实体 抽取 为 搜索 提供 额外 特征 的 研究 工作 ， 早 期 主要 在 TREC 评 测 中 开展 
(Callan 等 ，1992;，Callan ，Croft 和 Broglio，1995) 。 最 有 名 的 基于 规则 的 信息 抽取 系统 之 一 
是 FASTUS (Hobbs 等 ，1997)。BBN 的 系统 Identifier (Bikel、Schwartz 和 Weischedel， 1999) 
基于 统计 模型 ， 已 经 在 很 多 项 目 中 使 用 。MecCallum (2005) 给 出 了 一 个 信息 抽取 研究 的 综述 ， 
参考 了 这 个 领域 的 最 新 进展 。 

可 以 在 Wikipedia 中 找到 所 有 主流 编码 体系 的 详细 介绍 。Fujii 和 Croft (1993) 是 最 早 讨 论 
针对 CJK 语 言 搜索 的 文本 处 理 问 题 的 论文 之 一 。ACM Transactions on Asian Language 
Information Processing9 整个 期 刊 一 直 都 关注 这 个 问题 。Peng、Feng 和 McCallum (2004) 描 
述 了 一 个 汉语 分 词 的 统计 模型 ， 并且 给 出 了 其 他 方法 的 参考 文献 。 


练习 


4.1 对 Wikipedia 数 据 集 上 的 词 和 词 二 元 串 画 出 “排名 -频率 ”曲线 (使 用 log-log 图 )。 画 出 两 
者 结合 的 曲线 。 对 于 每 条 曲线 ， 什 么 是 参数 c 的 最 优 值 ? 

4.2 画 出 Wikipedia 数 据 集 的 词汇 增长 曲线 并 估计 Heap's Law 的 参数 。 处 理 文档 的 数据 会 让 结 
果 产 生变 化 吗 ? l 

43 使 用 本 章 介绍 的 方法 估计 两 个 不 同 搜索 引擎 索引 的 网 页 数 。 使 用 多 个 查询 进行 多 次 估计 ， 
比较 并 讨论 这 些 估计 值 的 一 致 性 (或 不 一 致 性 )。 

44 修改 Galago 词 素 切 分 器 ， 使 用 另 一 种 方式 处 理 撒 号 和 旬 点 。 描 述 你 的 词素 切 分 器 实现 的 
新 的 规则 。 给 出 一 些 这 个 解析 器 效果 好 或 者 效果 不 好 的 例子 (在 你 看 来 ) 。 

4.5 检查 Lemur 中 的 停 用 词 词 表 ， 找 出 你 认为 可 能 会 产生 问题 的 10 个 词 ， 并 且 给 出 这 些 问 题 
的 例子 。 

4.6 使 用 Porter stemmer 和 Krovetz stemmer 处 理 Wikipedia 文 档 。 比 较 分 别 产 生 的 词 干 数量 ， 
找 出 它们 结果 中 10 个 不 同 的 地 方 ， 并 且 找 出 这 种 差异 会 对 排序 产生 影响 。 

4.7 使 用 GATE 词性 标注 器 标注 一 个 Wikipedia 文 档 。 定 义 一 个 或 多 个 规则 识别 短语 ， 并 且 列 
出 10 个 最 高 频 的 短语 ， 然 后 对 Wikipedia 的 查询 进行 词性 标注 。 这 些 识别 出 的 短语 有 什么 
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问题 么 ? 

4.8 找 出 Wikipedia 中 拥有 最 多 指向 链接 的 10 个 文档 。 列 出 这 些 文档 对 应 的 销 文 本 集合 。 

4.9 计算 Wikipedia 文 档 的 PageRank。 列 出 PageRank 最 高 的 文档 及 其 PageRank 值 。 

4.10 图 4-11 给 出 了 一 个 计算 PageRank 的 算法 。 证 明 每 次 算法 运行 到 第 9 行 的 循环 上 时， 向 量 / 元 
素 和 为 1。 

4.11 实现 一 个 基于 规则 的 城市 名 识别 器 (可 以 选择 城市 名 的 一 个 子 集 来 简化 问题 )。 创 建 一 
个 测试 集合 ， 通 过 人 工 浏 览 找 到 所 有 的 城市 ， 然 后 测试 识别 器 。 总 结识 别 器 的 性 能 并 且 
对 错误 识别 的 现象 进行 讨论 。 i 

4.12 利用 网 页 创建 一 个 非 英 语 的 小 测试 集合 。 使 用 网 上 可 用 的 工具 对 它 进 行 基本 的 文本 处 理 : 
词素 切 分 、 词 干 提取 和 停 用 词 去 除 。 举 例 说 明文 梢 的 索引 项 表示 。 


第 5 章 基于 索引 的 相关 排序 


“必须 再 快 点 JL o” 
一 一 David Levinson, 《独立 日 》 


5.1 概述 


由 于 这 是 一 本 技术 书籍 ， 所 以 如 果 你 已 经 读 到 了 这 里 ， 说 明 你 可 以 理解 一 些 关 于 数据 结 
构 〈data structure) 的 事情 ,并且 知道 如 何在 程序 中 使 用 它们 。 如 果 你 想 存 储 一 个 项 目的 列表 ， 
那么 链表 或 者 数组 是 好 的 选择 。 如 果 你 想 根 据 一 个 属性 快速 地 找到 一 个 项 目 ， 那 么 哈 希 表 是 
一 个 比较 好 的 选择 。 更 复杂 的 任务 需要 更 复杂 的 结构 ， 比 如 B 树 或 者 优先 队列 等 。 

为 什么 需要 这 些 数据 结构 呢 ? 严格 来 讲 ， 并 不 需要 它们 。 需 要 计算 机 做 的 大 部 分 事情 都 
可 以 只 使 用 数组 完成 。 然 而 ， 数 组 有 一 些 缺 点 : 没有 排序 的 数组 查找 很 慢 ， 排 序数 组 播 入 很 
慢 。 相 反 ， 哈 希 表 和 树 对 于 查找 和 插入 都 很 快 。 这 些 数 据 结构 比 数组 要 复杂 ， 但 是 速度 上 的 
差别 非常 明显 。 

文本 搜索 与 传统 的 计算 任务 有 很 大 不 同 ， 所 以 它 调 用 自己 的 数据 结构 ， 倒 排 索 引 
(inverted index)。 倒 排 索 引 是 对 许多 不 同 种 类 数据 结构 的 一 个 概括 性 词汇 ， 它 们 具有 一 些 相同 
的 原理 。 我 们 很 快 将 要 看 到 ， 这 个 特殊 的 数据 结构 将 用 于 相关 排序 函数 。 然 而 ， 将 文档 进行 
相关 排序 的 相关 排序 函数 都 具有 相似 的 形式 ， 最 有 用 的 倒 排 素 引 几 乎 存在 于 所 有 搜索 引擎 中 。 

本 章 介 绍 计算 机 如 何 真正 地 处 理 搜索 引擎 的 查询 ， 所 以 本 章 也 可 以 叫做 “查询 处 理 ” 
(query processing) 。 本 章 的 最 后 一 节 正 是 以 此 为 题目 ， 并 且 所 给 出 的 查询 处 理 算法 也 是 基于 
本 章 前 面部 分 介绍 的 数据 结构 。 

高 效 的 查询 处 理 对 于 网 络 搜索 是 特别 重要 的 话题 ， 它 能 处 理 的 数据 量 是 10 年 前 很 难 想像 
的 。 每 天 ， 全 世界 的 人 们 输入 超过 5 亿 的 查询 ， 在 由 儿 十 亿 的 网 页 构成 的 索引 上 进行 搜索 ， 便 
排 索 引 是 所 有 现代 网 络 搜索 引擎 的 核心 。 

搜索 引擎 各 个 独立 的 部 分 之 间 有 很 强 的 依赖 关系 。 查 询 处 理 算法 依赖 于 检索 模型 、 指 定 
索引 的 内 容 。 反 过 来 讲 ， 不 可 能 选择 没有 有 效 的 查询 处 理 算法 的 检索 模型 。 我 们 要 到 第 7 章 才 
详细 讨论 检索 模型 ， 本 丫 首 先 描述 一 个 抽象 的 相关 排序 模型 ， 该 模型 引发 了 对 索引 的 选择 ， 
然后 是 本 章 的 四 个 主要 部 分 。 在 第 一 部 分 ， 讨 论 不 同类 型 的 倒 排 索引 以 及 各 个 不 同 索 引 能 
获得 关于 文本 的 什么 样 的 信息 。 第 二 部 分 给 出 压缩 技术 的 概述 ， 它 在 文本 检索 中 是 实现 高 效 
倒 排 索引 的 关键 。 本 章 的 第 三 部 分 描述 索引 是 如 何 构 建 的 ， 包 括 对 MapReduce 框 架 的 讨论 ， 
它 能 够 用 于 非常 大 的 文本 集合 。 本 章 的 最 后 一 部 分 集中 讨论 索引 如 何 被 用 来 生成 反映 查询 的 
文档 相关 排序 


5.2 抽象 的 相关 排序 模型 


在 介绍 如 何 构建 用 于 搜索 系统 的 索引 之 前 ， 我 们 首先 考虑 一 个 抽象 的 相关 排序 模型 。 本 
章 要 考虑 的 所 有 方法 ， 都 可 以 看 作 是 对 该 模型 的 实现 。 
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图 5-1 显 示 了 模型 的 基本 部 分 。 图 的 左边 是 一 个 示例 文档 。 文 档 由 自然 语言 号 成， 很 难 由 
计算 机 直接 分 析 。 所 以 ， 例 如 在 第 4 章 看 到 文本 被 转换 成 索引 项 (index term) 或 者 文档 特征 
(document feature) 。 在 本 章 ， 一 个 文档 特征 是 被 数值 化 的 一 些 文档 的 属性 。 在 图 $-1 中 ， 展 示 
了 两 种 特征 。 在 图 的 上 面 ， 有 主题 (topical) 特征 ， 它 是 对 该 文档 属于 某 一 主题 的 估计 。 在 
图 的 下 面 ， 有 两 个 可 能 的 文档 质量 (quality) 特征 。 一 个 特征 是 链接 到 该 文档 的 网 页 数量 ， 
另 一 个 是 这 个 页 面 上 次 更 新 至 今 的 天 数 。 这 些 特征 不 能 指出 该 文档 是 否 和 一 个 查询 相 匹 配 ， 
但 是 它们 指出 了 它 的 质量 : 一 个 没有 入 链接 且 多 年 没有 被 编辑 的 页 面 ， 很 可 能 和 任何 查询 都 
不 匹配 。 这 些 特征 值 都 是 用 特征 函数 (feature function) 产生 的 ， 特 征 函 数 就 是 一 个 数学 表达 
式 ， 它 从 文档 文本 中 生成 一 些 数值 。 在 第 4 章 讨 论 了 一 些 重要 的 主题 和 质量 特征 ， 第 7 章 将 介 
绍 生成 较 好 的 特征 函数 的 方法 。 本 章 假设 已 经 产生 合理 的 特征 值 。 
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图 5-1 抽象 相关 排序 模型 的 组 成 : SCY. BRE, I, PRB ICM 


图 的 右 侧 用 云 形 来 表示 相关 排序 函数 (ranking function) ， 该 函数 通过 合并 查询 和 文档 特 
征 数据 产生 一 个 分 数 。 目 前 ， 云 的 内 容 并 不 重要 ， 只 需 知道 大 多 数 合理 的 相关 排序 函数 忽略 
了 许多 文档 特征 ， 它 们 只 关心 一 个 与 查询 有 关 的 较 小 的 子 集 。 该 事实 使 得 倒 排 素 引 成 为 搜索 
中 一 个 引 人 注 目的 数据 结构 。 

相关 排序 函数 最 终 的 输出 是 一 个 分 数 ， 我 们 假设 是 某 个 实数 。 如 果 一 个 文档 获得 较 高 的 
分 数 ， 这 意味 着 系统 认为 该 文档 与 查询 匹配 得 很 好 ， 而 一 个 较 低 的 分 数 意味 着 系统 认为 该 文 
档 与 查询 匹配 得 不 好 。 为 了 构造 一 个 排 好 序 的 结果 列表 ， 文 档 需要 根据 它们 的 分 数 进行 排序 ， 
以 便 让 分 数 最 高 的 文档 最 先 出 现 。 

假设 有 一 个 搜索 引擎 ， 正 试图 以 适当 的 顺序 对 文档 进行 相关 排序 ， 以 响应 一 个 用 户 的 查 
询 ， 可 能 你 会 将 文档 分 成 堆 ， 如 :“ 好 ”、“ 一 般 ” 和 “ 坏 "。 计 算 机 本 质 上 正 通过 相关 排序 做 
着 与 此 相同 的 事情 。 然 而 ， 你 可 能 也 会 打破 这 个 约束 ， 仔 细 看 看 每 篇 文档 ， 从 而 决定 哪 一 个 
更 相关 。 遗 憾 的 是 ， 获 得 文档 的 深层 含义 对 计算 机 来 说 是 非常 难以 做 到 的 ， 因 此 搜索 引擎 到 
力 于 确定 好 的 特征 以 及 基于 这 些 特征 的 相关 排序 。 

一 个 更 具体 的 相关 排序 模型 

本 章 接 下 来 的 部 分 将 介绍 查询 评价 技术 ， 该 技术 假设 一 些 东 西 和 相关 排序 特别 相关 。 特 
别 地 ， 假 设 相 关 排序 函数 R 是 下 面 的 形式 ; 


R(Q, D) = DEOD) 


其 中 , FATE RR, CAUALER RAAE, ge ARERR, CAE 
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询 中 获得 一 个 值 。 这 两 个 函数 形成 一 个 特征 函数 对 。 每 个 函数 对 被 乘 在 一 起 ， 所 有 对 的 乘积 
结果 加 起 来 ， 形 成 最 终 的 文档 分 数 。 
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图 5-2 更 具体 的 相关 排序 模型 。 注 意 此 模型 中 查询 和 文档 都 具有 特征 函数 


图 5-2 展 示 了 该 模型 的 一 个 实例 。 与 抽象 相关 排序 模型 一 样 ， 各 种 特征 被 从 文档 中 提取 出 
来 。 这 个 图 只 显示 了 一 部 分 特征 ， 但 是 实际 中 会 有 更 多 ， 这 些 都 反映 到 公式 中 的 f(D) 函 数 上 。 
可 以 简单 地 称 它们 为 fopzca(D) 或 者 fn(D)。 对 于 含有 较 多 或 者 山 显 “tropical” 或 者 “fish” 的 
文档 ， 这 些 值 将 变 大 。 

该 文档 有 一 些 非 主题 特征 。 对 于 该 示例 文档 ， 我 们 看 到 搜索 引擎 注意 到 它 曾 被 更 新 3 次 ， 
有 14 个 入 链接 。 虽 然 这 些 特征 没有 告诉 我 们 任何 关于 该 文档 和 一 个 查询 的 主题 是 否 相 匹配 的 
信息 ， 但 是 它们 确实 给 了 一 些 关 于 文档 质量 的 建议 。 既 然 知道 它 偶尔 被 更 新 ， 就 说 明 它 不 是 
刚刚 被 发 布 到 网 上 的 、 而 且 也 没有 被 废弃 。 我 们 也 知道 有 14 个 其 他 的 网 页 有 指向 它 的 链接 ， 
这 可 能 意味 着 在 它 上 面 有 一 些 有 用 的 信息 。 

注意 ， 也 有 一 些 应 用 于 查询 的 特征 函数 。 因 为 查询 含有 “tropical” ， 所 以 特征 函数 gwpreakO) 
获得 一 个 较 大 的 值 。 然 而 ，g8soros(Q8) 也 有 一 个 较 小 的 非 零 值 ， 因 为 它 和 查询 中 的 其 他 词 项 相关 。 
这 些 来 自 查询 特征 函数 的 值 与 文档 特征 函数 的 值 相 乘 ， 然 后 求 和 ， 获 得 一 个 文档 分 数 。 

查询 也 有 一 些 非 主题 的 特征 值 ， 例 如 更 新 次 数 特征 。 当 然 ， 这 并 不 意味 着 查询 被 更 新 了 。 
这 个 特征 值 指出 了 文档 更 新 对 于 与 该 查询 相关 有 多 重要 。 例 如 ， 如 果 一 个 查询 是 “today's 
weather in london ， 我 们 可 能 更 喜欢 那些 经 常 更 新 的 文档 ， 因 为 一 个 不 是 每 天 更 新 的 文档 ， 
不 可 能 对 今天 的 天 气 信 息 有 任何 帮助 。 该 查询 应 该 对 更 新 次 数 特 征 赋 一 个 较 高 的 值 。 相 反 ， 
一 个 从 不 变化 的 文档 ， 可 能 与 查询 “ful text of moby dick” 很 相关 。 这 个 查询 对 于 更 新 次 数 
可 以 有 一 个 较 低 的 特征 值 。 

如 果 一 个 检索 系统 每 天 不 得 不 对 超过 成 百 上 千 万 的 特征 进行 求 和 ， 文 本 搜索 系统 可 能 不 ， 
会 很 实用 。 实 际 上 ， 查 询 特征 (e) 大 多 数 为 0。 这 意味 着 每 个 文档 的 求 和 运算 只 要 在 值 非 
零 的 gx:(Q) 上 进行 就 可 以 了 。 


5.3 倒 排 索引 


所 有 现代 搜索 引擎 的 索引 都 是 基于 倒 排 索引 (inverted index) 的 。 曾 经 也 使 用 过 其 他 的 
索引 结构 ， 最 著名 的 是 签名 文件 (signature file) S ,但 是 倒 排 索引 被 认为 是 最 有 效 、 最 灵活 


O ”签名 是 一 个 位 序列 ， 它 是 一 个 文本 或 者 文档 ) 块 的 简明 表述 ， 和 在 第 3 章 中 讨论 的 指纹 类 似 。 对 文本 块 
中 的 每 个 词 ， 使 用 一 个 哈 希 函数 以 在 签名 中 一 些 特殊 的 位 置 上 置 1。 
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的 索引 结构 。 

倒 排 索引 和 本 书后 面 的 索引 相当 。 可 以 看 一 下 本 书 的 索引 作为 例子 。 书 籍 的 索引 将 索引 
项 (index term) 按照 字母 表 顺 序 排序 。 每 一 个 索引 项 跟着 一 个 和 该 项 有 关 的 页 码 列表 。 例如 ， 
如 果 想 知道 更 多 关于 “stemming” 的 信息 ， 可 以 在 索引 中 查找 以 “s” 开 头 的 项 ， 接 着 可 以 仔 
细 查 找 每 个 词 条 ， 直 到 找到 “stemming” 为 止 。 那 里 的 页 码 列表 可 以 把 你 带 到 第 4 章 。 

相似 地 ， 倒 排 索引 通过 索引 项 组 织 。 通 常 认为 单词 是 文档 的 一 部 分 ， 但 是 如 果 转 变 这 个 
想法 ， 认 为 文档 是 附着 在 单词 上 的 ， 这 样 的 索引 就 被 称 作 倒 排 (inverted) 了 。 和 传统 书本 类 
似 ， 索 引 项 经 常 也 是 按照 字母 顺序 排列 ， 但 这 不 是 必须 的 ， 因 为 经 常 可 以 使 用 哈 希 表 来 查找 
它们 。 每 个 索引 项 有 其 自身 的 倒 排列 表 (inverted list) ， 它 们 含有 和 该 项 相关 的 数据 。 在 书本 
的 索引 中 ， 相 关 数 据 是 页 码 列 表 。 在 搜索 引擎 中 ， 数 据 可 能 是 文档 列表 或 者 单词 所 在 位 置 的 
列表 。 列 表 的 每 个 项 被 称 作 posting ， 在 posting 中 ， 指 向 特定 文档 或 位 置 的 部 分 被 称 作 指针 
(pointer)。 文 档 集 中 每 个 文档 被 赋予 一 个 唯一 的 编号 ， 这 样 可 以 有 效 地 存储 文档 指针 。 

书本 中 的 索引 可 以 存储 除 位 置信 息 之 外 的 更 多 信息 。 对 于 重要 的 单词 ， 经 常 使 用 粗 体 标 
识 其 中 一 个 页 码 ， 以 指明 此 页 包含 关于 该 项 的 定义 或 者 展开 的 讨论 。 倒 排 文 件 也 能 有 扩展 信 
息 ， 此 时 posting 能 够 包括 除了 位 置 之 外 的 其 他 一 系列 信息 。 通 过 在 每 个 posting 中 存储 适当 的 
信息 ， 能 够 有 效 地 计算 出 在 上 一 节 中 介绍 的 特征 函数 。 

最 后 ， 习 惯 上 ， 书 本 索引 的 页 码 按照 升序 打印 ， 以 便 最 小 的 页 码 最 先 出现 。 传 统 地 ， 倒 
排 表 也 使 用 相同 的 方式 存储 。 这 些 排序 文档 (document-orderd) 列表 以 文档 编号 排列 ， 这 使 
得 某 些 种 类 的 查询 处 理 更 加 有 效 ， 同 时 也 提高 了 倒 排 表 压 缩 率 。 然 而 ， 有 些 倒 排 文件 也 可 以 
以 其 他 顺序 排列 。 

与 倒 排 文件 不 同 ， 其 他 索引 通常 有 或 多 或 少 的 缺点 。 例 如 ， 签 名 文件 将 文档 集中 的 每 个 
文档 表示 为 一 些 比特 位 的 集合 。 为 了 搜索 一 个 签名 文件 ， 查 询 也 被 转化 为 签名 的 比特 位 的 模 
式 ， 然 后 进行 比较 。 一 般 地 ， 对 于 一 个 查询 ， 所 有 签名 必须 都 被 扫描 一 遍 ， 即 使 素 引 被 紧密 
地 编 了 码 ， 这 仍然 是 一 个 繁重 的 处 理 任 务 。 倒 排 文档 的 优点 是 对 大 多 数 查询 来 说 ， 只 有 一 小 
部 分 索引 需要 被 处 理 。 另 外 ， 签 名 文件 的 匹配 是 有 噪声 的 ， 所 以 签名 的 匹配 不 能 保证 文档 的 
匹配 。 更 重要 的 是 ， 很 难为 相关 排序 搜索 设计 一 种 签名 文件 方法 (Zobel etal., 1998), 

另 一 个 方法 是 使 用 高 维 (spatial) 数据 结构 ， 例 如 k-d tree。 该 方法 中 ， 每 个 文档 使 用 一 
个 高 维 空间 中 的 指针 来 编码 ， 查 询 也 是 如 此 。 然 后 高 维 数据 结构 被 用 来 寻找 和 查询 最 接近 的 
文档 。 虽 然 许 多 相关 排序 方法 本 质 上 是 高 维 的 ， 但 是 大 多 数 高 维 数据 结构 并 不 是 为 文本 应 用 
中 的 维度 数 设 计 的 8 。 结 果 ， 使 用 倒 排 索引 进行 文档 相关 排序 要 比 使 用 典型 的 高 维 数据 结构 
快 得 多 。 

5.3.1 文档 

最 简单 形式 的 倒 排 表 只 存储 包含 每 个 单词 的 文档 编号 ， 没 有 其 他 附加 信息 。 这 种 倒 排 表 
与 本 书后 面 的 索引 形式 类 似 。 

图 5-3 展 示 了 由 表 5-1 (在 本 例 中 ,文档 指 的 是 句子 ) 中 的 4 名 话 构建 的 这 种 类 型 的 索引 。 
索引 包含 4 个 句子 中 的 每 个 单词 。 单 词 后 面 是 一 个 列表 框 ， 每 个 框 中 都 含有 句子 的 编号 ， 每 个 
框 都 是 一 个 posting。 例 如 ， 可 以 快速 地 看 到 单词 “fish” 出 现在 所 有 的 4 个 句子 中 ， 因 为 编号 1、 


O “文档 中 的 每 一 项 都 相当 于 一 维 ， 所 以 实际 上 存在 成 千 上 万 维 。 相 比 之 下 ， 典 型 的 数据 库 应 用 最 多 只 有 几 十 维 。 
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2、3 和 4 都 出 现 了 ， 也 可 以 知道 “fish” 是 唯一 一 个 出 现在 4 个 句子 中 的 单词 。 有 两 个 单词 关系 
很 紧密 “tropical” 出 现在 除 S, 之 外 的 句子 中 ,“water” 没 有 出 现在 9 中 。 


表 5-1 来 自 Wikipedia 的 关于 “tropical fish” 条 目的 4 个 句子 


S1 Tropical fish include fish found in tropical environments around 
the world, including both freshwater and salt water species. 

S2 Fishkeepers often use the term tropical fish to refer only those 
requiring fresh water, with saltwater tropical fish referred to as 


marine fish. 





S3 Tropical fish are popular aquarium fish, due to their often bright 


coloration. 


S4 In freshwater fish, this coloration typically derives from irides- 
cence, while salt water fish are generally pigmented. 
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图 5-3 表 5-1 中 文档 (句子 ) 的 倒 排 索引 


注意 ， 这 种 索引 并 不 记录 每 个 单词 出 现 的 次 数 ， 它 只 记录 每 个 单词 出 现在 其 中 的 文档 。 
例如 ，5S; 包 含 单词 “fish” 两 次 ， 然 而 $1 只 包含 “fish” 一 次 。“fish” 的 倒 排 表 并 没有 区 分 名 
子 1/ 和 2， 两 个 都 以 相同 的 方式 列 出 。 后 面 几 节 中 我 们 将 看 到 包含 单词 出 现 频率 的 索引 。 

当 考 虑 倒 排 表 的 交集 时 ， 它 变 得 更 有 趣 了 。 假 设想 找到 含有 “coloration” 和 “freshwater” 
两 个 单词 的 句子 。 倒 排 索引 告诉 我 们 , “coloration” 出 现在 $3 和 Ss 中 ， 同 时 “freshwater” 出 现 
在 S$, 和 $4 中 ， 因 此 可 以 很 快 地 说 出 只 有 54 既 包含 “coloration” 又 包含 “freshwater”。 既 然 每 个 
列表 都 是 按照 句子 编号 排序 的 ， 因 此 ， 找 到 这 些 列 表 的 交集 需要 OC(max(m, n) 时 间 ， 其 中 和 
?是 两 个 列表 的 长 度 。 算 法 和 归并 排序 一 样 ， 使 用 本 章 后 面 将 要 介绍 的 倒 排 表 跳 转 (skipping) 
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技术 ， 开 销 降 为 O(min(m, n)), 
5.3.2 计数 


我 们 知道 ， 抽 象 相关 排序 模型 认为 文档 是 由 特征 组 成 的 。 使 用 倒 排 索引 ， 索 引 中 的 每 个 
单词 反映 了 文档 的 特征 。 这 一 特征 数据 可 以 由 相关 排序 函数 进行 处 理 ， 最 终 形成 文档 分 数 。 
在 一 个 只 含有 文档 编号 信息 的 倒 排 索 引 中 ， 特 征 是 二 元 的 ， 也 就 是 说 ， 如 果 文 档 包 含 一 个 词 
项 ， 则 值 为 1， 否 则 为 0。 这 是 很 重要 的 信息 ， 但 是 当 含有 大 量 可 能 匹配 的 文档 时 ， 对 于 找到 
最 好 的 几 个 文档 来 说 ， 这 太 粗 糙 了 。 

例如 ， 对 于 查询 “tropical fish”，S,、5S, 和 $3 三 个 句子 都 匹配 。 基 于 文档 的 索引 ( 见 图 5-3) 
中 的 数据 没有 给 出 什么 理由 来 选择 其 中 的 一 个 句子 而 不 选 其 他 的 。 

现在 ， 看 一 下 图 5-4。 这 个 索引 看 起 来 和 前 面 的 很 像 ， 仍 然 有 相同 数量 的 单词 和 posting， 
每 个 posting 中 的 第 一 个 数字 和 前 面 索 引 中 的 也 一 样 。 然 而 ， 每 个 posting 现 在 有 了 第 二 个 数字 ， 
它 是 每 个 单词 在 文档 中 出 现 的 次 数 。 这 些 不 多 的 额外 的 数据 ， 使 得 对 于 查询 “tropical fish” 
更 倾向 于 选择 $,， 而 不 是 选择 S, 和 53， 因 为 5 包含“tropical” 两 次 ， 包 括 “fish” 三 次 。 





and only 
aquarium pigmented 
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图 5-4 具有 单词 计数 信息 的 表 5-1 中 文档 的 倒 排 索引 


在 这 个 例子 中 ，5; 可 能 不 是 很 明显 的 比 S 或 5 好， 但 是 一 般 来 讲 ， 单 词 计数 是 预测 文档 相 
关 性 的 强 有 力 的 手段 ， 具 体 地 ， 单词 计数 可 以 帮助 区 分 那些 关于 某 一 特殊 主题 的 文档 和 其 他 
只 是 顺便 讨论 这 一 主题 的 文档 。 假 设 有 两 个 文档 ， 一 个 是 关于 tropical fish 的 ， 另 一 个 是 关于 
tropical island 的 。 关 于 tropical island 的 文档 可 能 包含 单词 “fish”， 日 是 只 有 少数 几 次 。 另 一 
方面 ， 关 于 tropical fish 的 文档 会 包含 单词 “fish” 多 次 。 在 这 个 例子 中 ， 使 用 单词 出 现 的 次 数 
可 以 有 助 于 我 们 将 最 相关 的 文档 排 到 最 高 。 
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5.3.3 位 置 


当 寻 找 与 查询 “tropical fish” 相 匹配 的 文档 时 ， 单 词 在 文档 中 的 位 置 是 一 个 很 重要 的 相 
关 性 预测 。 假 设 一 个 关于 食物 的 文档 ， 其 中 含有 关于 tropical fruits 的 章节 ， 接 着 是 关于 
saltwater fish 的 章节 。 到 目前 为 止 ， 我 们 还 没有 考虑 过 包含 足够 信息 的 索引 ， 这 些 信息 能 够 指 
出 这 个 文档 并 不 相关 。 虽 然 包含 单词 “tropical” 和 “fish” 的 文档 看 上 去 很 相关 ， 但 是 真正 想 
要 知道 的 是 文档 中 是 否 准确 地 含有 “tropical fish” 这 个 短语 。 
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图 5-5 具有 单词 位 置信 息 的 表 5-1 中 文档 的 倒 排 索 引 


为 了 判定 这 种 情况 ， 可 以 在 索引 中 加 入 位 置信 息 ， 如 图 5$-5 所 示 。 这 个 索引 和 前 面 的 索引 
有 一 些 共 同 的 结构 特征 ， 它 有 相同 的 索引 项 ， 每 个 列表 包含 一 些 posting。 然 而 ， 这 些 posting 
不 尽 相 同 。 每 个 posting 包 含 两 个 数字 : 文档 编号 ， 接 着 是 单词 的 位 置 。 在 前 面 的 索引 中 ， 每 
个 文档 仅 有 一 个 posting 。 现 在 ， 每 个 单词 出 现 一 次 就 有 一 个 posting。 

看 一 下 单词 “fish” 的 列表 。 在 其 他 的 索引 中 ， 这 一 列表 仅 包 含 4 个 Posting。 现 在 它 包 含 9 
个 。 前 两 个 指出 单词 “fisnh” 是 3 中 第 2 个 和 第 4 个 单词 ， 接 下 来 的 三 个 posting 指 出 “fish” 是 
SS 的 第 7、18 和 23 个 单词 。 

这 一 信息 在 与 其 他 的 posting 列 表 取 交集 时 最 有 意思 。 在 与 “tropical” 的 倒 排 表 取 交集 时 ， 
可 以 发 现 短语 “tropical fish” 出 现 的 位 置 。 在 图 5-6 中 ， 两 个 倒 排 表 按 顺序 排 好 ， 单 词 
“tropical” 是 5 中 的 第 1 个 单词 ，“fish” 是 5, 的 第 2 个 单词 ， 这 意味 着 5 一 定 是 以 短语 “tropical 
fish” 开 始 的 。 单 词 “tropical” 作 为 $, 的 第 7 个 词 再 次 出 现 ， 但 是 “fish” 没 有 出 现在 第 8 个 单 
词 上 ， 因 此 这 不 是 一 个 短语 匹配 。 总 之 ， 短 语 “tropical fish” 在 四 个 句子 中 共 出 现 4 次 。 在 图 
中 ， 很 容易 看 到 短语 匹配 ， 它 们 出 现在 posting 排 成 一 列 的 位 置 上 。 
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图 5-6 对 齐 的 “tropical” 和 “fish”Pposting 表 ， 以 找到 短语 “tropical fish” 


同一 方法 可 以 被 扩展 到 用 于 发 现 较 长 的 短语 或 一 般 的 相近 表示 ， 如 “找到 tropical 和 fish 在 
5 个 单词 之 内 共 现 ”。 假 设 词 “tropical” 出 现在 位 置 7， 可 以 查找 “fish” 的 倒 排 表 ， 如 果 它 出 
现在 p-5 和 p+5 之 间 的 任意 位 置 ， 则 构成 一 个 匹配 。 

5.3.4 域 与 范围 

真正 的 文档 并 非 只 是 由 单词 构成 ， 它 们 使 用 句子 和 有 段落 将 概念 划分 为 逻辑 单元 。 一 些 文 
档 含 有 标题 或 小 标题 ， 它 们 可 以 作为 文档 内 容 的 一 个 简短 的 摘要 。 一 些 特 殊 类 型 的 文档 有 其 
独特 的 部 分 ， 例 如 每 封 电子 邮件 都 包含 发 信人 信息 、 主 题 等 。 所 有 这 些 都 是 文档 域 
(document field) 的 实例 ， 它 们 是 文档 的 一 部 分 ， 可 以 携带 一 些 类 型 的 语义 。 

在 索引 中 包含 一 些 域 的 信息 是 合理 的 。 例 如 ， 有 一 位 叫做 Dr. Brown 的 教授 曾经 给 你 发 了 
一 封 关于 课程 项 目 何 时 结束 的 电子 邮件 ， 但 是 找 不 到 了 。 可 以 在 电子 邮件 系统 的 搜索 框 里 面 
输入 “brown”， 但 是 想 要 的 结果 可 能 和 其 他 含有 “brown” 这 个 词 的 邮件 混在 了 一 起 ， 如 
Brown University, brown Socks 等 。 如 果 将 对 “brown” 的 搜索 限制 在 邮件 中 的 “From:” 这 一 
行 ， 将 准确 获得 想 要 的 结果 。 

即使 不 在 查询 里 面 显 式 地 使 用 ， 域 信息 也 是 非常 有 用 的 。 标 题 或 小 标题 倾向 于 作为 文档 
后 面部 分 的 很 好 的 摘要 。 因 此 ， 如 果 一 个 用 户 想 要 找 “tropical fish”， 优 先 选择 标题 为 
“Tropical Fish” 的 文档 是 很 有 道理 的 ， 而 不 是 标题 为 “Mauritius” 的 文档 。 在 正文 中 多 次 提 
到 “tropical” 和 “fish” 的 文档 ， 这 种 对 文档 某 些 域 的 偏爱 可 以 融合 到 相关 排序 函数 中 。 

为 了 处 理 这 种 搜索 ， 搜 索引 擎 需要 能 够 判别 一 个 单词 是 否 在 某 一 特定 的 域 中 。 一 个 办 法 
是 对 每 种 文档 域 都 单独 建立 索引 。 也 就 是 说 ， 可 以 为 文档 标题 建 一 个 索引 ， 为 小 标题 建立 一 
个 索引 ， 为 正文 建立 一 个 索引 。 搜 索 标 题 中 的 词 的 时 候 ， 可 以 简单 地 搜索 标题 索引 。 然 而 ， 
在 文档 中 任何 一 部 分 找到 一 个 词 都 比较 麻烦 ， 因 为 需要 从 不 同 的 索引 中 获取 倒 排 表 。 

另 一 个 办 法 是 将 一 个 词 出 现 的 域 的 信息 也 存储 在 该 词 的 posting 中 。 例 如 ， 我 们 可 以 指定 
数字 0 代表 标题 ，1 代 表 正 文 。 每 个 倒 排 表 的 posting 可 以 在 结尾 包括 一 个 0 或 1。 这 个 数据 可 以 
被 用 来 快速 地 判定 一 个 posting 是 否 在 标题 中 ， 而 且 每 个 posting 仅 需要 增加 1 个 比特 位 。 然 而 ， 
如 果 有 除 标题 外 更 多 的 域 ， 则 需要 更 多 的 比特 位 来 表示 。 

当面 对 更 复杂 的 文档 结构 时 ， 这 两 个 办 法 都 有 问题 。 例 如 ， 假 设想 要 索引 一 本 书 ， 和 本 
书 一 样 ， 一 些 书 有 不 止 一 个 作者 。 本 书 的 XML 描述 可 能 为 ， 

<authoroW. Bruce Croft</author>, 

<author>Donald Metzler</author>, and 

<author>Trevor Strohman</author> 

假设 想 找 作 者 是 Croft Donald 的 书 ， 如 果 在 一 个 搜索 引擎 中 输入 短语 “croft donald”, 本 
书 会 匹配 吗 ? 单词 “croft” 和 “donald” 在 里 面 都 出 现 了 ， 事 实 上 它们 也 是 挨 着 出 现 的 。 然 
而 ， 它 们 是 在 两 个 不 同 的 作者 域 中 。 所 以 本 书 可 能 不 能 很 好 的 匹配 查询 “croft donald”, {Hz 
前 面 两 种 处 理 域 的 方法 【分别 索引 和 posting 表 中 加 比特 位 ) ， 并 不 能 区 分 这 种 情况 。 

接 下 来 介绍 范围 表 (extent list) 。 范 围 是 文档 中 的 邻近 区 域 ， 可 以 使 用 单词 的 位 置 表示 这 
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些 范 围 。 例 如 ， 如 果 一 本 书 的 标题 起 始 于 第 5 个 词 ， 结 束 于 第 9 个 词 之 前 ， 可 以 将 其 编码 为 
(5,9)。 对 于 前 面 的 作者 ， 可 以 写作 author':(1, 4),(4,6),(7,9)。(1,4) 音 味 着 前 三 个 词 (“W. Bruce 
Croft”) 构成 了 第 一 位 作者 ， 接 着 是 第 二 位 作者 (“Donald Metzler” )， 两 个 单词 。 单词 “and” 
不 属于 作者 域 ， 但 是 接 下 来 两 个 单词 属于 作者 域 ， 所 以 最 后 的 posting 是 (7,9) 。 

fsh [12 |][4] BEB] [2,23] [3,2 ] [3,6 | [43 4] 
title 
图 5-7 对 齐 的 “fish” 和 标题 posting 表 ， 以 找到 单词 “fish” 在 文档 标题 域 的 匹配 词 


图 5-7 展 示 了 范围 表 实 际 是 如 何 工作 的 。 这 里 对 于 “fish” 有 与 上 一 个 例子 相同 的 位 置 
posting。 还 有 一 个 标题 域 的 范围 表 。 为 了 清晰 起 见 ， 在 posting 列 表 里 有 一 些 空隙 ， 以 便 相应 
的 posting 排 成 一 列 。 在 两 个 列表 的 开始 ， 看 到 文档 1 有 一 个 包含 两 个 单词 (单词 1 和 2， 在 第 3 
个 单词 之 前 ) 的 标题 。 可 见 这 个 标题 包括 单词 “fish”， 因 为 “fish” 的 倒 排 表 指出 , “fish” 是 
文档 1 中 的 第 2 个 单词 。 如 果 用 户 想 要 找到 标题 中 含有 “fish” 的 文档 ,文档 1 恰好 相 匹 配 ， 文 
档 2 不 匹配 ， 因 为 它 的 标题 在 第 5 个 词 之 前 结束 ， 但 是 直到 第 7 个 单词 “fish” 才 出 现 。 文 档 3 显 
然 根本 没有 标题 ， 所 以 不 可 能 匹配 。 文 档 4 有 一 个 从 第 9 个 词 开始 的 标题 (可 能 这 个 文档 是 以 
日 期 或 作者 的 描述 信息 开始 的 )， 它 确实 包含 单词 “fish”。 最 终 ， 这 个 例子 显示 共有 两 个 相 匹 
配 的 文档 ，1 和 4。 

这 一 概念 可 以 扩展 到 各 种 域 ， 例 如 小 标题 、 段 落 、 句 子 等 。 也 可 以 用 于 有 具体 含义 的 更 
小 的 片段 ， 例 如 地 址 、 姓 名 ， 甚 至 仅仅 记录 动词 。 

5.3.5 分 数 

如 果 倒 排 表 用 于 生成 特征 函数 的 值 ， 那 么 为 什么 不 将 特征 函数 的 值 存储 起 来 呢 ?” 这 当然 
是 可 能 的 ， 而 且 一 些 非 常 高 效 的 搜索 引擎 确实 是 这 么 做 的 。 这 个 方法 使 得 存储 那些 在 查询 处 
理 阶 段 需 要 大 计算 量 的 特征 贰 数值 成 为 可 能 ， 它 也 将 查询 处 理 引 警 的 复杂 性 转化 为 索引 的 编 
码 ， 这 可 能 会 更 快 。 

下 面具 体 介绍 该 方法 。 前 一 节 有 一 个 例子 ,说 的 是 对 于 查询 “tropical fish”， 标 题 为 
“Tropical Fish” 的 文档 应 该 比 标题 为 “Mauritius” 的 文档 更 适合 ， 即 使 “Mauritius” 文 档 中 
“tropical” 和 “fish” 多 次 出 现 。 在 进行 查询 评价 的 时 候 ， 计 算 能 反映 这 一 偏好 的 分 数 需要 一 
些 复杂 的 运算 。“tropical fish” 的 posting 必 须 被 分 成 组 ， 以 便 知道 哪些 是 标题 的 posting， 哪 些 
不 是 。 然 后 ， 必 须 为 标题 和 非 标 题 的 posting 定 义 一 些 分 数 ， 然 后 将 这 些 数 混在 一 起 ， 对 每 个 
文档 都 需要 进行 这 一 操作 。 

一 个 候选 的 方法 是 在 倒 排 表 中 存储 最 终 的 值 。“fish” 的 倒 排 表 可 以 类 似 于 [(1:3.6),(3:2.2)]， 
这 意味 着 对 于 “fish”， 文档 1 的 特征 值 是 3.6， 文 档 3 的 特征 值 是 2.2。 数 3.6 可 能 考虑 了 “fish” 
在 标题 中 、 在 小 标题 中 、 在 大 号 字体 中 、 在 粗 体 中 以 及 在 链 到 该 文档 的 链接 中 出 现 的 次 数 。 
也 许 文 档 中 根本 不 存在 单词 “fish”， 而 是 存在 很 多 鱼 的 名 字 ， 如 “carp” 或 “tout” 等 。3.6 
这 个 值 就 成 了 这 篇 文档 和 fish 相 关 度 的 一 个 指示 。 

存储 像 这 样 的 分 数 ， 可 同时 提升 和 降低 系统 的 灵活 性 。 提 升 灵 活性 是 因为 计算 那些 需要 
繁重 计算 的 分 数 成 为 了 可 能 ， 因 为 这 些 很 难 的 打分 工作 放 人 了 索引 中 。 然 而 ， 灵 活性 也 会 降 
低 ， 因 为 一 旦 索引 建 好 ， 就 再 也 不 能 改变 评分 的 机 制 了 。 更 重要 的 是 ， 关 于 单词 邻近 的 信息 
在 这 个 模型 中 也 不 存在 了 ， 这 意味 着 如 果 不 对 短语 建立 索引 ， 在 评分 中 就 不 能 包含 短语 信息 
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了 。 这 些 事先 计算 的 短语 列表 需要 额外 的 空间 。 
5.3.6 ”排列 


到 有 上 前 为 止 ， 我 们 一 直 假 设 每 个 倒 排 表 的 posting 应 该 按照 文档 的 编号 排列 。 虽 然 这 是 最 
通用 的 做 法 ， 但 这 并 不 是 对 倒 排 表 排 序 的 唯一 方法 。 倒 排 表 也 可 以 根据 分 数 进行 排序 ， 以 便 
最 高 分 数 的 文档 最 先 出 现 。 当 倒 排 表 已 经 存 好 分 数 ， 或 者 当 只 有 一 种 分 数 需要 通过 倒 排 表 计 
算 时 ， 这 么 做 才 有 意义 。 通 过 存储 文档 的 分 数 ， 查 询 处 理 引 擎 可 以 只 专注 于 每 个 倒 排 表 前 面 
的 部 分 ， 其 中 记录 了 最 高 分 数 的 文档 。 对 于 仅 由 一 个 单词 构成 的 查询 来 说 ， 这 么 做 特别 有 用 。 
在 以 文档 顺序 排列 的 倒 排 表 中 ， 查 询 处 理 引 擎 需要 扫描 整个 列表 ， 才 能 找到 k 个 分 数 最 高 的 文 
档 ， 而 在 以 分 数 顺 序 排列 的 倒 排 表 中 ， 仅 需要 读 取 前 £ 个 posting 即 可 。 


5.4 压缩 


有 许多 不 同 的 途径 可 以 存储 数字 信息 ， 通 常 简单 地 区 分 为 永久 性 和 易 失 性 存储 。 使 用 永 
久 存储 来 保存 那些 想 一 直 保 留 的 文件 和 目录 ， 除 非 我 们 自己 删除 它们 。 人 磁盘 、CD、DVD、 闪 
存 及 磁带 等 ， 都 用 于 此 目的 。 另 一 方面 ， 动 态 随机 访问 存储 器 (Random Access Memory, 
RAM) 被 用 来 存储 易 失 的 信息 ， 它 们 是 那些 只 有 在 计算 机 运行 时 才 需 要 的 信息 。 当 关闭 计算 
机 时 ， 所 有 的 信息 将 会 消失 。 

根据 速度 和 容量 可 以 更 好 地 区 分 存储 的 类 型 。 磁 带 很 慢 ， 磁 盘 要 快 一 些 ， 但 是 动态 RAM 
要 快 得 多 。 现 代 的 计算 机 如 此 之 快 ， 以 至 于 动态 RAM 都 跟 不 上 它 的 速度 了 。 所 以 微 处 理 器 包 
括 至 少 两 级 的 缓存 ， 更 快 的 存储 器 构成 了 处 理 器 的 寄存 器 。 理 想 情 况 下 ， 可 以 使 用 寄存 器 或 
者 缓存 作为 短期 存储 器 ， 但 是 这 并 不 切实 际 ， 因 为 它们 太 昂 贵 了 。 

实际 上 ， 现 代 计算 机 包含 一 个 存储 器 层 (memory hierarchy), EREB, ABR), 48 
是 速度 很 快 。 基 本 的 存储 器 容量 更 大 ， 但 是 速度 慢 。 搜 索引 擎 的 性 能 强烈 依赖 于 它 如 何 利用 
每 种 存储 器 的 特性 。 

压缩 技术 是 管理 存储 器 层 的 最 有 力 的 工具 。 大 规模 数据 集 的 倒 排 表 自身 也 非常 大 。 实 际 
上 ， 当 包括 词 位 置 、 文 本 范围 等 信息 时 ， 其 容量 基本 上 与 文本 集 的 大 小 相当 9S。 压缩 使 得 相 
闻 的 倒 排 表 数 据 占用 更 小 的 空间 。 显 著 的 优点 是 ， 可 以 降低 对 磁盘 和 存储 器 的 需求 ， 从 而 节 
约 开 支 。 更 重要 的 是 ， 压 缩 使 得 更 多 数据 存 人 存储 器 层 。 如 果 索 引 数据 压 缩 为 四 分 之 一 ， 则 
能 够 在 处 理 器 缓存 中 存储 四 倍 的 有 用 数据 ， 同 时 能 够 以 四 倍 快 的 速度 向 处 理 器 提供 数据 。 在 
磁盘 上 ， 压 缩 也 将 数据 压 得 更 紧密 ， 这 降低 了 寻 道 时 间 。 在 多 核 和 多 处 理 器 系统 中 ， 多 个 处 
理 器 共享 存储 器 ， 压 缩 的 数据 使 得 处 理 器 能 更 有 效 地 共享 存储 器 带宽 。 

遗憾 的 是 ， 没 有 免费 的 午餐 。 压 缩 在 节省 空间 的 同时 ， 也 带 来 一 定 的 开销 : 处 理 器 必须 
解压 数据 才能 使 用 。 因 此 ， 只 选择 那些 压缩 比 高 的 压缩 算法 并 不 够 。 为 了 提高 性 能 ， 需 要 选 
择 既 减 小 空间 ， 又 比较 容易 解压 的 压缩 技术 。 

数学 上 ， 假 设 某 个 处 理 器 每 秒 能 够 处 理 p 个 倒 排 表 的 Posting。 该 处 理 器 附 在 每 秒 能 够 提供 
m 个 posting 的 存储 器 上 。 每 秒 能 够 处 理 的 posting 数 则 为 min(m, p)。 如 果 p>m， 则 处 理 器 要 花 些 
时 间 等 待 posting 从 存储 器 中 传 过 来 。 如 果 m>p， 则 存储 器 有 些 时 候 会 闲置 。 





SS” 例如， 使 用 开源 搜索 引 获 Indri 构 建 的 TREC 文 本 集 的 索引 ， 共 大 小 是 文本 集 的 25% 一 50%。 该 文档 集 要 比 
网 页 集合 小 得 多 。 
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假设 在 系统 中 引入 压缩 ， 压 缩 率 为 r， 也 就 是 说 ,现在 能 够 在 原本 仅 能 存储 一 个 posting 的 
空间 内 存储 r 个 posting。 这 使 得 处 理 器 每 秒 能 够 读 取 mr 个 posting。 然 而 ， 在 处 理 它 之 前 ， 处 理 
器 首先 需要 对 每 个 posting 进 行 解压 ， 这 使 得 处 理 速度 为 d 的 解压 因子 降低 了 ， 从 而 处 理 器 每 秒 
处 理 dp 个 posting。 现 在 ， 每 秒 能 够 处 理 min(mr, dp) 个 posting。 

当 不 使 用 压缩 技术 时 ，r=1，d=1。 任 何 可 行 的 压缩 技术 使 得 r>1，d<1。 可 见 ， 只 有 妆 
p>m 时 ， 压 缩 才 是 对 性 能 提高 有 帮助 的 技术 ， 也 就 是 说 ， 处 理 器 能 够 处 理 的 倒 排 表 数 据 比 存 
储 颖 提供 的 快 。 非 常 简单 的 压缩 方案 对 7 的 提高 和 对 4d 的 降低 都 不 大 。 复 杂 的 压缩 方案 会 大 幅 
提高 r- 和 降低 4。 理 想 情况 是 选择 一 种 使 得 min(mr, dp) 最 大 的 压缩 方法 ， 这 将 发 生 在 mr = dpt, 

本 节 只 考虑 无 损 〈lossless) 压缩 技术 。 无 损 技 术 使 用 较 少 的 空间 存储 数据 ， 但 是 不 损失 
任何 信息 。 也 有 有 损 (lossy) 数据 压缩 技术 ， 它 们 通常 应 用 于 视频 、 图 像 和 音频 的 压缩 。 这 
些 技术 获得 很 高 的 压缩 率 (前 面 讨 论 的 r) ， 但 是 ， 是 通过 委 弃 一 些 不 重要 的 数据 做 到 的 。 后 
面 讨论 的 倒 排 表 剪 枝 技 术 ， 可 以 认为 是 有 损 压 缩 技 术 ， 但 是 一 般 讨 论 压 缩 时 ， 仅 指 无 损 方法 。 

特别 地 ， 使 用 压缩 技术 的 目标 是 降低 倒 排 表 的 大 小 。 本 节 介 绍 的 压缩 技术 特别 适用 于 文 
本 编号 、 词 频 以 及 文档 位 置 等 信息 。 

5.4.1 te Se sz 

到 这 里 ， 大 家 已 经 看 到 许多 概率 分 布 的 例子 。 压 缩 技术 也 是 基于 概率 的 。 压 缩 背 后 基本 
的 想法 是 ， 用 较 短 的 代码 表示 常见 的 数据 元 素 ， 使 用 较 长 的 代码 表示 不 常见 的 数据 元 素 。 前 
面 讨论 的 倒 排 表 本 质 上 是 数字 的 列表 ， 在 不 压缩 情况 下 ， 每 个 数字 占用 相同 的 空间 。 有 些 数 
字 比 其 他 的 数字 更 常见 ， 如 果 将 常见 的 数字 用 较 短 的 代码 编码 ， 不 常见 的 数字 使 用 较 长 的 代 
码 ， 则 最 终 可 以 节省 空间 。 

例如 ， 对 于 数字 0、1、2、3， 可 以 使 用 两 个 二 进 制 比特 位 对 这 些 数 字 编码 。 则 数字 序列 ; 

0,1,0,3,0,2,0 








可 以 编 为 一 个 二 进 制 数字 序列 : 
00 01 00 10 00 11 00 
注意 二 进 制 序列 中 的 空隙 使 得 每 个 数 的 开始 和 结束 位 置 更 清晰 ， 实 际 上 这 不 是 编码 的 一 
部 分 。 
序列 实例 中 ， 数 字 0 出 现 4 次 ， 其 他 的 数字 都 只 出 现 1 次 。 可 以 使 用 一 个 0 比特 对 数字 0 进 
行 编码 以 节省 空间 。 初 步 党 试 的 编码 可 能 是 : 
0010100110 
这 看 起 来 很 成 功 ， 因 为 该 编码 仅 使 用 10 个 比特 位 ， 而 不 是 原来 的 14 个 。 然 而 ， 访 编码 存 
在 歧义 (ambiguous) ， 也 就 是 说 ， 不 清楚 如 何 对 其 解码 。 记 住 ， 编 码 中 的 空格 仅 是 为 了 方便 
表示 ， 实 际 上 并 不 存在 。 如 果 使 用 不 同 的 空格 ， 则 获得 一 个 该 编码 的 完美 的 合法 表示 ， 
0010100110 
解码 成 ， 
0, 1, 1,0,0,3,0 
很 不 幸 ， 这 并 不 是 原来 编码 的 数据 。 麻 烦 是 ， 当 在 编码 数据 中 看 到 010 时 ， 不 能 确定 是 由 
(0, 2) 还 是 (1,0) 编 码 的 。 
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未 压缩 编码 没有 歧义 ， 在 哪里 加 空格 是 确定 的 ， 因 为 每 个 数字 都 是 2 个 比特 。 在 压缩 码 中 ， 
编码 数字 占用 1 到 2 个 比特 ， 所 以 并 不 清楚 在 哪里 加 空格 。 为 了 解决 这 个 问题 ， 需 要 无 歧义 
(unambiguous) 码 ， 也 称 作 前 缀 码 (prefix code) KYA HATES (prefix-free code), FE 
义 码 是 那些 在 编码 数据 中 仅 有 唯一 合法 途径 加 空格 的 编码 。 

将 编码 修正 为 无 歧义 的 : 





则 有 下 面 的 编码 : 
0 101011001110 


这 种 编码 需要 13 个 比特 位 ， 而 不 是 未 经 压缩 版 本 的 14 个 ， 所 以 还 是 节省 了 一 些 空间 。 然 
而 ， 和 上 面 的 编码 不 同 ， 该 编码 没有 歧义 。 注 意 ， 如 果 编 码 以 0 开始 ， 则 占用 1 个 比特 位 ， 如 
果 编 码 以 1 开始 ， 则 占用 3 个 比特 位 。 这 给 出 了 一 个 确定 性 算 革 ， 以 便 在 编码 流 中 加 入 空格 。 

在 练习 题 部 分 ， 你 将 证 明 没 有 任何 一 个 无 歧义 编码 能 够 对 任意 输入 进行 压缩 ， 一些 输 入 
将 产生 更 长 的 编码 ， 这 就 是 为 什么 获知 需要 编码 的 是 何 种 数据 是 如 此 重要 的 原因 了 。 在 此 例 
中 ， 可 以 看 到 数字 0 经 常 出 现 ， 可 以 使 用 这 个 事实 来 降低 被 编码 数据 需要 的 空间 。 炉 (entropy) 
用 来 衡量 输入 的 可 预见 性 (predictability)。 在 此 例 中 ， 输 入 似乎 可 预见 ， 因 为 数字 0 比 其 他 数 
字 更 常见 。 利 用 炉 可 以 产生 一 个 对 此 有 用 的 编码 。 

5.4.2 Delta 编码 


本 章 所 要 考虑 的 所 有 编码 技术 都 假设 小 数字 比 大 数字 更 常见 。 对 于 词 频 ， 这 是 一 个 很 好 
的 假设 ， 文 档 中 许多 词 仅 出 现 一 次 ， 有 些 出 现 两 次 或 者 三 次 。 只 有 很 少 词 的 出 现 超过 10 次 。 
因此 ， 使 用 小 代码 对 小 数字 编码 ， 大 代码 编码 大 数字 是 有 道理 的 。 

然而 ， 文 档 编 号 性 质 则 不 同 。 一 个 典型 的 倒 排 表 包 含 一 些小 的 文档 编号 和 一 些 非常 大 的 
文档 编号 。 有 些 文档 包含 很 多 单词 ， 因 此 会 在 倒 排 表 中 出 现 多 次 ,但 是 倒 排 表 中 的 文档 编号 
SY AR IFES 

如 果 考 虑 文档 编号 之 间 的 不 同 而 不 是 文档 编号 自身 ， 情 况 就 不 一 样 了 。 倒 排 表 一 般 是 按 
照 文档 编号 进行 排列 的 。 例 如 ， 无 计数 倒 排 表 就 是 一 些 文档 编号 的 列表 ， 像 这 样 ， 

1, 5,9, 18, 23, 24, 30, 44, 45, 48 

既然 这 些 文档 编号 是 有 序 的 ， 那 么 序列 中 的 每 个 文档 编号 都 比 它 前 面 的 大 ， 比 后 面 的 小 。 

这 使 得 可 以 通过 邻接 文档 编号 之 间 的 差额 对 列表 进行 编码 : 
1,4,4,9,5, 1,6, 14, 1,3 

该 编码 列表 以 1 开始 ， 说 明 第 一 个 文档 编号 是 1。 接 下 来 是 4， 说 明 第 二 个 文档 编号 比 第 一 
个 大 4; 1+4=5。 第 三 个 数 也 是 4， 说 明 第 三 个 文档 的 编号 比 第 二 个 大 4: 5+4=9。 

这 一 过 程 称 作 Delta 编 码 (Delta encoding) ， 差 额 经 常 被 称 作 d-gaps。 注 意 ，Delta 编 码 并 
没有 定义 存储 数据 的 比特 模式 ， 所 以 它 自身 不 节省 任何 空间 。 然 而 ，Delta 编 码 在 将 一 个 数字 
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列表 变换 成 一 个 小 数字 列表 时 特别 成 功 。 由 于 将 要 讨论 小 数字 列表 的 压缩 方法 ， 所 以 Delta 编 
码 是 一 个 有 用 的 性 质 。 
在 继续 讨论 之 前 ， 先 考虑 单词 “entropy” 和 “who” 的 倒 排 表 。 单 词 “who” 非 常常 见 ， 
所 以 大 多 数 文档 都 含有 它 。 对 “who” 的 倒 排 表 使 用 delta 编 码 时 ， 会 有 许多 小 d-gaps， 例 如 ; 
1,1,2,1,5,1,4,1,1,3, === 
相反 ， 文 本 中 单词 “entropy” 很 少见 ， 所 以 少数 文档 包含 它 。 因 此 d-gaps 会 比较 大 ， 
例如 : 
109, 3766, 453, 1867, 992，……: 
然而 ， 既 然 “entropy” 很 少见 ， 所 以 这 个 大 数字 的 列表 不 会 很 长 。 一 般 地 ， 会 发 现 常见 
项 的 倒 排 表 压缩 得 非常 好 ， 而 不 常见 的 项 压缩 得 不 是 很 好 。 
5.4.3 位 对 齐 码 
5.4.1 节 介绍 的 编码 是 位 对 齐 码 ， 也 就 是 说 ， 代 码 区 域 之 间 的 中 断 (空格 ) 可 以 在 任意 比 
特 位 后 面 。 在 本 节 中 ， 将 描述 一 些 常用 的 位 对 齐 码 。 下 一 节 将 讨论 只 能 以 字 节 单位 作为 结尾 
的 编码 。 这 里 所 要 讨论 的 所 有 技术 ， 都 是 要 寻找 在 倒 排 表 中 使 用 较 小 的 空间 存储 小 数字 ( 例 
如 词 频 、 单 词 位 置 、 文 档 编 号 的 Delta 编 码 等 ) 的 途径 。 
最 简单 的 编码 是 一 进 制 码 (unary code) 。 你 可 能 对 二 进 制 比较 熟悉 ， 它 使 用 两 个 符号 
(通常 是 0 和 1) 对 数字 进行 编码 。 一 进 制 数字 系统 基于 1 进行 编码 ， 也 就 是 说 ， 它 使 用 单一 的 
符号 。 这 是 一 些 例子 : 





1110 
11110 
111110 


一 般 来 讲 ， 在 一 进 制 码 中 ， 使 用 k 个 1 对 数字 /编码 ， 接 着 是 一 个 0。 和 需要 在 结尾 使 用 0 使 得 
编码 无 歧义 。 

此 编码 对 形 如 0 或 1 的 小 数字 非常 有 效 ， 但 是 很 快 就 成 为 一 种 浪费 了 。 例 如 数字 1023 可 以 
表示 为 10 个 二 进 制 比特 位 ， 但 是 在 一 进 制 码 中 需要 1024 个 比特 位 。 

现在 ， 知 道 了 两 种 数字 编码 。 一 进 制 很 方便 ， 因 为 它 压缩 了 小 数字 而 且 天 生 是 无 歧义 的 。 
二 进 制 对 于 大 的 数字 是 一 个 好 的 选择 ， 但 是 它 不 是 无 歧义 的 。 一 种 可 行 的 压缩 方法 是 ， 对 经 
常 出 现 的 数字 使 用 比 那些 不 常 出 现 的 数字 更 少 的 比特 位 进行 编码 ， 这 意味 着 二 进 制 编码 自身 
对 于 压缩 并 没有 什么 用 。 

1. Elias-y 码 

Elias-Y 码 结合 了 一 进 制 和 二 进 制 编码 的 长 处 。 使 用 该 码 对 数字 K 进 行 编码 ， 需 要 计算 两 
个 量 : 

« k, = |log, k| 
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ok = k — 21824] 


假设 人 是 二 进 制 的 形式 ， 第 一 个 值 上 是 二 进 制 数 。 假 设 > 0，k 最 左面 的 二 进 制 数 是 1。 如 
采 以 一 进 制 对 已 编码 ， 并 且 以 二 进 制 对 态 编 码 ， 则 获得 Elias-y 码 。 表 5-2 给 出 了 一 些 例子 。 


表 5-2 Elias-y 码 实例 








数字 (k) ka k, 编码 

1 0 0 0 

2 1 0 10 0 

3 1 1 10 1 

6 2 2 110 10 

15 3 7 1110 111 

16 4 0 11110 0000 

255 7 127 11111110 1111111 
1023 9 511 1111111110 111111111 


该 码 中 的 技巧 是 ， 一 进 制 的 部 分 指出 二 进 制 部 分 有 多 少 比特 位 。 任 何 数字 的 编码 结束 于 
一 进 制 码 指出 的 比特 位 。 对 于 大 于 2 的 数字 ， 它 使 用 更 少 的 比特 。 对 于 大 数字 ， 节 省 的 空间 很 
可 观 。 例 如 ， 现 在 可 以 使 用 19 个 比特 对 1023 编 码 ， 而 不 是 一 进 制 中 的 1024 个 。 

对 于 任意 数字 5，Elias-Yy 码 需要 为 fu 以 一 进 制 形式 提供 (log, k| +1 个 比特 ， 为 态 以 二 进 制 形 
式 提供 k = |log k] 个 比特 。 因 此 一 共 需 要 2|log 上 |+1 个 比特 位 。 

2.Elias-8 码 

虽然 Elias-Yy 码 是 对 一 进 制 码 的 很 大 的 改良 ， 但 是 它 对 于 可 能 包含 大 数字 的 输入 并 不 理想 。 
我 们 知道 数字 k 可 以 表示 成 log, 个 二 进 制 数 ， 但 是 Elias-y 码 需要 两 倍 的 比特 位 以 使 其 编码 无 
EX. 

Elias-6 码 试图 通过 改变 k 的 编码 方式 来 解决 这 一 问题 。 可 以 对 ky+1 使 用 Elias-y 进 行 编码 。 
也 就 是 说 ， 将 分 解 为 : 

. ka= |1082 (k4 + 1)| 

ok, =ky- 2 liog2 (ka +2) | 

因为 可 能 是 0， 但 是 logs0 并 没有 定义 ， 所 以 在 此 使 用 ka+1。 

然后 使 用 一 进 制 对 ks 编码 ，ks, 用 二 进 制 编码 ，K, 也 用 二 进 制 编码 。kss 的 值 是 ky 的 长 度 ， 
ku 是 所 的 长 度 ， 这 使 得 该 码 无 歧义 。 表 5-3 给 出 了 一 些 Elias-6 码 的 例子 。 


表 5-3 Elias-5 码 实例 


数字 (如 ka k, kaa kar 编码 

1 0 0 0 0 0 

2 1 0 1 0 1000 

3 1 1 1 0 1001 

6 2 2 1 1 10110 

15 3 7 2 0 110 00 111 

16 4 0 2 1 110 01 0000 
255 7 127 3 0 1110 000 11111111 
1023 9 511 3 2 


1110 010 1111111111 
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为 了 更 有 效 地 对 大 数字 编码 ，Elias-6 码 牺牲 了 小 数字 的 功效 。 注 意 数字 2 的 编码 已 经 变 为 
了 4 个 比特 位 ， 而 不 是 Elias-y 码 的 3 个 。 然 而 ， 对 于 大 于 16 的 数字 ，Elias-6 码 大 小 不 会 超过 
Elias-y 码 ， 对 于 大 于 32 的 数字 ，Elias-6 码 需要 更 少 的 空间 。 

Elias-8 码 中 ，kas 需 要 |logz(llogs 如 +1D|+1 位 ， 接 着 是 二 进 制 的 tu 需要 [1082([log, k] +1] 
位 ， 然 后 是 二 进 制 的 上 需要 |log: k| te, BALA 2log,log,k+log,k fiz. 
5.4.4 字 节 对 齐 码 

虽然 一 些小 技巧 能 有 助 于 很 快 地 解码 位 对 齐 码 ， 但 是 在 处 理 字 节 的 处 理 器 上 ， 处 理 变 长 
比特 位 码 仍然 比较 驴 烦 。 处 理 器 能 有 效 地 处 理 字 节 ， 而 不 是 比特 位 ， 所 以 实际 应 用 中 ， 字 节 
对 齐 的 编码 会 更 快 。 

有 许多 字 节 对 齐 的 压缩 方法 实例 ， 但 是 这 里 只 考虑 一 种 比较 流行 的 方法 。 该 编码 通常 称 
为 Y-byte， 是 变 长 字 节 (variable byte length) 的 缩写 。v-byte 方 法 和 UTF-8 编 码 很 像 ， 是 表示 
文本 很 常用 的 方法 〈 见 3.5$.1 节 ) 。 

和 前 面 讨 论 的 其 他 编码 类 似 ，v-byte 方 法 使 用 短 码 表示 小 数字 ,用 长 码 表示 大 数字 。 然 而 ， 
每 个 码 都 是 一 系列 字 节 ， 而 不 是 比特 位 。 所 以 ， 一 个 整数 的 最 短 v-byte 码 是 一 个 字 节 。 在 某 些 
条 件 下 ， 这 可 能 会 浪费 一 些 空间 ， 对 数字 1，v-byte 码 需要 比 Elias-y 码 多 8 倍 的 空间 。 通 常 ， 空 








间 的 差距 并 没有 如 此 显著 。 表 5-4 v-byte 码 中 被 编码 数字 空间 的 需求 
v-byte 码 真 的 相当 简单 。 每 个 字 节 的 低 7 位 是 |e o y 
二 进 制 数 ， 高 位 是 一 个 决定 位 。 每 个 编码 的 最 后 ao ; 
一 个 字 节 高 位 置 1， 否 则 为 0。 任 何 一 个 可 以 表示 Veke 5 
成 7 位 二 进 制 数 的 数 ， 需 要 一 个 字 节 进行 编码 。 更 2 < ke2” 3 
多 关于 空间 占用 的 信息 见 表 5-4。 27h <2 4 
表 5-5 显 示 了 一 些 编码 的 实例 。 小 于 128 的 数 
以 原始 的 二 进 制 形式 保存 在 一 个 字 节 325-5 ”v-byte 码 编码 实例 
中 ， 除 非 高 位 置 1。 对 于 较 大 的 数 ， 最 k En pry 
小 7 位 存储 在 第 一 个 字 节 中 ， 接 下 来 的 7 1 0000001 gl 
位 在 储 在 后 面 的 字 节 中 ， 直 到 所 有 的 非 6 1 0000110 86 
零 位 都 被 存储 。 l 127 1 1111111 FF 
e etn my 
对 齐 码 有 很 多 优点 。 字 节 对 齐 码 压缩 和 


20000 0 0000001 0 0011100 1 0100000 01 1C AO 


解压 更 快 ， 因 为 处 理 器 〈 编 程 语言 ) 是 
按照 处 理 字 节 而 不 是 处 理 比 特 位 设计 的 。 因 此 ， 本 书 附带 的 Galago 搜 索引 擎 使 用 v-byte 进 行 
压缩 。 


5.4.5 实际 应 用 中 的 压缩 
压缩 技术 用 来 在 真正 的 检索 系统 中 对 倒 排 表 进 行 编码 。 本 节 将 看 到 在 Galago 的 PositionList- 
Writer 类 中 ， 如 何 使 用 压缩 对 倒 排 表 进行 编码 。 
图 5-5 益 明 位 置信 息 如 何 存储 在 倒 排 玫 中。 下面 仅 考虑 “tropical ”的 倒 排 表 : 
(1, 1) (1, 7) (2, 6) (2, 17) (3, 1) 
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每 个 数字 对 中 ， 第 一 个 数 表示 文档 ， 第 二 个 表示 单词 的 位 置 。 例 如 ， 列 表 第 三 项 表示 单词 
tropical” 出 现在 文档 2 的 第 6 个 单词 位 置 。 为 了 使 此 例 更 有 说 服 力 ， 又 在 列表 中 加 入 (2, 197), 
(1, 1) (1,7) (2, 6) (2, 17) (2, 197) (3, 1) 

每 篇 文档 的 位 置 可 以 合 到 一 起 ， 以 便 每 个 文档 单独 成 一 条 (文档 , 词 频 , {位 置 ]) ， 其 中 词 
频 是 文档 中 该 词 出 现 的 次 数 。 该 例 中 的 数据 现在 变 为 ， 

(1, 2, [1, 7D (2, 3, [6, 17, 197]) (3,1, [1]) 

词 频 很 重要 ， 因 为 它 使 得 列表 即使 没有 圆 括 号 和 方 括号 也 可 读 。 词 频 指出 方 括号 中 位 置 
信息 出 现 了 多 少 次 ， 即 使 写成 下 面 的 形式 ， 也 可 以 无 歧义 地 理解 这 些 数 字 了 ， 

1,2,1,72,3,6,17,1973,1,1 

然而 为 了 清晰 ， 还 是 加 上 了 括号 。 

虽然 这 些 都 是 小 数字 ， 但 是 使 用 delta 编 码 可 以 使 它们 变 得 更 小 。 注 意 ， 文 档 编号 是 以 升 
序 排列 的 ， 所 以 可 以 放心 地 使 用 delta 编 码 : 

(1, 2, [1 7]) (1, 3,[6,17,197]) (1, 1, [1]) 

第 二 项 现在 是 以 1 而 不 是 以 2 开始 的 了 ， 但 是 这 个 1 意味 着 “这 篇 文档 编号 比 前 一 篇 大 1”。 
位 置信 息 也 是 以 升序 排列 ， 也 可 以 使 用 delta 编 码 : 

(1,2, [1, 6]) (1,3, [6,11,180]) (1,1,[1]) 

词 频 不 能 使 用 delta 编 码 ， 因 为 不 是 以 升序 排列 。 如 果 还 是 要 对 其 进行 delta 编 码 ， 则 一 些 
delta 可 能 会 是 负数 ， 如 果 没 有 额外 的 工作 ， 则 不 能 用 压缩 技术 处 理 。 

现在 可 以 删除 括号 了 ， 倒 排 表 就 是 一 些 数字 的 列表 : 

1,2,1,61,2,6,11,1801,1,1 
由 于 大 多 数 数字 都 比较 小 ， 可 以 使 用 v-byte 压 缩 以 便 节 省 空间 ，; 
81 82 81 86 81 82 86 8B 01 B4 81 81 81 

01 B4 是 使 用 两 个 字 节 编码 的 180。 基 余 的 数字 都 使 用 一 个 字 节 编码 ， 整 个 列表 占 13 个 字 节 。 
5.4.6 展望 

本 布 描 述 了 三 种 倒 排 表 压 缩 方法 ， 实 际 应 用 中 ， 还 有 许多 其 他 的 方法 。 即 使 压缩 是 一 个 
古老 的 计算 机 科学 研究 领域 ， 每 年 还 是 有 新 的 压缩 方法 产生 。 

为 什么 需要 这 些 新 的 方法 呢 ?” 本 节 开 始 时 曾 谈 到 ， 压 缩 可 以 提高 处 理 器 处 理 数据 的 吞吐 
量 。 这 意味 着 选择 最 好 的 压缩 算计 与 CPU 和 存储 系统 的 现状 有 紧密 联系 。 长 入 以 来 ，CPU 处 
理 速 度 的 增长 比 存储 器 吞吐 量 的 增长 要 快 得 多 ， 因 此 高 压缩 比 的 压缩 方法 更 为 吸引 人 。 然 而 ， 
目前 主流 的 硬件 趋势 是 倾向 于 多 个 时 钟 速度 较 低 的 CPU 内 核 。 依 靠 这 些 系 统 存 储 器 的 吞吐 量 ， 
低压 缩 比 可 能 更 有 吸引 力 。 

更 重要 的 是 , 现代 CPU 的 处 理 速 度 主要 来 自 一 些 聪 明 的 技巧 ， 如 分 支 预 测 ， 它 帮助 处 理 
器 猜测 代码 将 如 何 执行 。 更 容易 预测 的 代码 比 不 能 预测 的 代码 要 运行 得 快 得 多 。 许 多 最 新 的 
压缩 方法 对 于 解压 阶段 更 容易 预测 ， 因 此 也 更 快 。 
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5.4.7 ” 跳 转 和 跳 转 指针 
对 于 许多 查询 ， 不 需要 存储 于 倒 排 索引 中 的 所 有 信息 。 相 反 ， 如 果 仅 仅 读 取 很 小 一 部 分 
和 查询 有 关 的 数据 ， 会 更 有 效 。 跳 转 指针 可 以 帮助 达到 这 一 目标 。 
考虑 布尔 查询 “galago AND animal”。 互 联网 上 ， 单 词 “animal” 大 约 出 现在 三 亿 文 档 中 ， 
而 “galago” 为 一 百 万 。 如 果 假 设 “galago” 和 “animal” 的 倒 排 表 以 文档 顺序 排列 的 ， 有 一 
个 很 简单 的 算法 处 理 这 个 查询 : 
“ 设 必 是 “galago” 倒 排 表 的 第 一 个 文档 编号 。 
“ 设 4 是 “animal” 倒 排 表 的 第 一 个 文档 编号 。 
“ 当 “galago” 和 “animal” 的 倒 排 表 中 都 有 文档 时 ， 循 环 ， 
一 如 有 果 d < d。， 移 动 d, 到 “galago” 倒 排 表 中 的 下 一 个 文档 编号 。 
一 ad, < d,， 移 动 4, 到 “animal” 倒 排 表 中 的 下 一 个 文档 编号 。 
一 如果 ds = d,， 文 档 4, 同 时 包含 “galago” 和 “animal”。 分 别 移动 d, 和 d, 到 “galago” 
和 “animal” 的 倒 排 表 中 的 下 一 个 文档 编号 
但 是 ， 这 个 算法 花费 太 高 。 它 几乎 处 理 到 了 两 个 倒 排 表 中 的 所 有 文档 ， 所 以 得 处 理 大 约 
三 亿 次 循环 。 超 过 99% 的 处 理 时 间 将 花 在 处 理 包含 “animal” 但 是 不 包含 “galago” 的 两 亿 九 
千 九 百 万 的 文本 上 。 
可 以 通过 在 “animal” 倒 排 表 中 使 用 向 前 跳 转 的 方法 来 稍微 改动 一 下 该 算法 。 每 次 当 发 现 
d, < ds 后 ， 向 前 跳 过 k 个 文档 到 达 新 的 文档 s。。 如 果 s。< dp FATE TICE, His, >d X 
时 ,已 经 将 搜索 范围 缩小 于 往 回 的 x 个 文档 中 ， 其 中 可 能 会 包含 4,， 这 样 就 可 以 线性 地 查找 了 。 
这 一 改良 算法 需要 多 少时 间 呢 ?既然 单词 ” 表 5-6 跳 转 长 度 (月 以 及 期 望 的 处 理 步骤 
“galago” 出 现 一 百 万 次 ， 该 算法 将 执行 一 百 万 次 长 ~oo 


k Z 
度 为 k 的 线性 搜索 ， 期 望 的 开销 为 500 000 x k 步 。 一 - 1 
共 跳 过 300 000 000 次 。 那 么 读 算 法 共 花 费 500 000 x 10 35 million 
k + 300 000 000/k4, 20 25 million 
表 5-6 给 出 了 在 一 些 / 值 下 ， 所 需要 的 处 理 步 又 。 25 24.5 million 
当 一 次 跳 过 25 个 文档 时 ， 可 获得 最 好 的 期 望 性 能 。 注 o sate. 
意 在 这 个 k 值 下 ， 对 于 “galago” 的 每 次 出 现 ， 在 100 53 million 


“animal” 倒 排 表 中 不 得 不 向 前 跳 12 次 。 这 正 是 线性 
搜索 的 代价 : 较 大 的 k 值 意味 着 在 现行 搜索 中 检查 更 多 的 元 素 。 如 果 选 择 二 元 搜索 ， 最 好 的 k 
值 变 为 了 208， 使 用 9.2 百 万 步 。 

如 果 结 合 跳 转 的 二 元 搜索 如 此 有 效 ， 为 什么 会 考虑 线性 搜索 呢 ? 这 个 问题 就 是 压缩 。 对 
于 二 元 搜索 ， 需 要 在 倒 排 表 中 能 够 直接 跳 到 元 素 上 ， 但 是 压缩 后 ， 每 个 元 素 占 用 不 同 大 小 的 
空间 。 另 外 ，delta 编 码 也 可 能 用 于 文档 编号 ， 意 味 着 即使 可 以 在 压缩 序列 中 跳 到 某 一 位 置 上 ， 
也 需要 对 前 面 的 数据 进行 解压 ， 才 能 获得 文档 的 编号 。 这 很 令 人 诅 形 ， 因 为 我 们 的 目标 是 降 
低 需 要 处 理 的 列表 数量 ， 而 压缩 追 使 我 们 不 得 不 解压 整个 列表 。 

可 以 使 用 跳 转 指针 表 解 决 这 一 问题 。 跳 转 指 针 表 是 在 索引 中 建立 的 一 个 额外 的 数据 结构 ， 
可 以 更 有 效 地 在 倒 排 表 上 跳 转 。 

一 个 跳 转 指针 (d, p) 包 括 两 部 分 ， 文 档 编 号 4 和 一 个 字 节 (或 者 比特 位 ) 位 置 p。 这 意味 着 
有 一 个 起 始 于 位 置 p 的 倒 排 表 posting ， 同 时 它 前 面 是 文档 4 的 posting。 注 意 跳 转 指 针 的 定义 解 
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决 了 压缩 问题 ， 可 以 从 位 置 p 开 始 解码 ， 同 时 ; 我 们 知道 4 是 p 前 面 的 文档 ， 可 以 用 它 解 码 。 

作为 一 个 简单 的 例子 ， 考 虑 下 面 的 未 经 压缩 的 文档 编号 列表 : 

5,11,17,21,26, 34, 36, 37, 45, 48, 51, 52, 57, 80, 89, 91, 94, 101, 104, 119 
使 用 delta 编 码 压缩 后 ， 获 得 如 下 d-gaps : 
5, 6,6,4,5,9,2,1, 8, 3,3, 1, 5, 2, 23,9, 2, 23, 7, 3, 15 

接着 在 列表 中 加 入 一 些 跳 转 指 针 ， 使 用 基于 0 的 位 置 (也 就 是 ， 数 字 5 在 列表 中 的 0 号 

WE): 
(17, 3), (34, 6), (45, 9), (52, 12), (89, 15), (101, 18) 

假设 试图 使 用 跳 转 指针 (34, 6) 进 行 解码 。 在 d-gap 列 表 的 位 置 6 上 是 数字 2。 把 34 加 上 2， 获 
得 文档 编号 为 36。 

更 一 般 地 ， 如 果 想 要 在 列表 中 找到 文档 编号 80， 可 以 扫描 跳 转 指针 表 ， 直 到 找到 (52, 12) 
和 (89, 15)。80 比 52 大 ,但 是 比 89 小 ， 所 以 在 位 置 12 处 开始 解码 。 可 以 发 现 : 

。S2+5= 57 

*57 +23 = 80 

至 此 ， 在 列表 中 成 功 地 找到 80。 如 果 要 找 的 是 85， 再 次 从 跳 转 指针 (52, 12) 处 开始 : 

.52+5=57 

e 57 + 23 = 80 

*80+9=89 

至 此 ， 既 然 85 < 89， 可 知 85 不 在 列表 中 。 

通过 对 跳 转 指针 用 于 “galago AND animal” 的 实例 的 分 析 ， 我 们 发 现 跳 转 指针 的 效率 依 
赖 于 “animal” 比 “galago” 更 通用 这 一 事实 。 给 定 此 查询 ，25 是 一 个 很 好 的 k 值 ， 但 是 为 所 
有 的 查询 仅 选 择 了 一 个 k 值 。 对 于 大 多 数 文档 集 和 查询 ， 优 化 的 跳 转 距离 大 约 是 100 字 节 。 


5.5 辅助 结构 


倒 排 文件 是 搜索 引擎 中 的 主要 数据 结构 ， 但 是 对 于 一 个 功能 齐全 的 系统 ， 通 常 也 需要 其 
他 的 结构 。 

1. 词 表 与 统计 

如 前 所 述 ， 倒 排 文 件 就 是 一 些 倒 排 表 的 集合 。 为 了 在 索引 中 搜索 ， 需 要 一 些 数 据 结 构 来 
查找 某 一 项 的 倒 排 表 。 解 决 该 问题 的 最 简单 的 途径 是 ， 将 每 个 倒 排 表 分 别 存储 在 不 同 的 文件 
中 ， 每 个 文件 都 以 相应 项 的 名 字 命 名 。 为 了 找到 “dog” 的 倒 排 家， 系统 可 以 简单 地 打开 以 
dog 命 名 的 文件 ， 然 后 读 取 内 容 。 然 而 ， 正 如 第 4 章 所 示 ， 文 档 集 可 能 有 成 百 上 千 万 的 不 同 的 
单词 ， 大 多 数 词 仅 出 现 一 两 次 。 这 意味 着 如 果 索 引 存储 在 文件 中 ， 会 包括 成 百 上 千 万 的 文件 ， 
大 多 数 都 非常 小 。 

BÆ, 现代 的 文件 系统 没有 对 这 种 存储 方式 进行 优化 。 即 使 大 多 数 的 文件 含有 儿 个 字 节 
的 数据 ， 文 件 系 统一 般 也 要 为 每 个 文件 预 留 几 千 字 节 空 间 ， 结 果 造 成 巨大 的 空间 浪费 。 例 如 ， 
在 AP89 数 据 集 上 ，7 万 多 的 词 仅 出 现 一 次 〈 见 表 4-1) 。 每 个 倒 排 表 需 要 20 字 节 ， 总 共 需 要 大 约 
2MB 的 空间 。 然 而 ， 如 果 每 个 文件 需要 1KB ， 结 果 是 用 70MB 的 空间 存储 2MB 的 数据 。 另 外 ， 
许多 文件 系统 还 要 在 无 序数 组 中 存储 目录 信息 ， 这 意味 着 对 于 较 大 的 文件 目录 ， 文 件 的 查找 
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会 非常 慢 。 

为 了 解决 这 些 问 题 ， 倒 排 表 通常 存储 在 单一 文件 中 ， 这 也 说 明了 为 什么 它 被 称 作 倒 排 文 
fF (inverted file) 。 在 倒 排 文件 中 ， 还 有 一 个 被 称 作 词汇 (vocabulary 或 lexicon) 的 目录 结构 ， 
它 包含 一 个 从 索引 项 到 倒 排 文 件 字 节 偏 移 量 的 查找 表 。 

许多 情况 下 ， 该 词 表 应 很 小 以 便 全 部 放 人 内 存 。 这 时 ， 词 表 数 据 能 在 磁盘 上 以 任意 顺序 
排列 。 当 搜索 引擎 启动 的 时 候 ， 它 被 载 人 哈 希 表 中 。 如 果 搜 索引 人 擎 需要 处 理 非常 大 的 词 表 ， 
那么 在 搜索 过 程 中 ， 一 些 基 于 树 的 数据 结构 ， 如 B 树 (B-tree) ， 应 读 被 用 来 最 小 化 磁盘 访问 。 

Galago 对 其 词 表 结构 使 用 的 是 混合 策略 。 一 个 被 称 作词 表 的 小 文件 存储 的 是 倒 排 文件 中 
从 词 表 项 到 偏 移 量 的 查找 表 。 对 于 倒 排 文件 中 每 32KB 的 数据 ， 这 个 文件 仅 包括 一 个 词 表 条 目 。 
因此 ， 一 -个 32TB 的 倒 排 文件 ， 需 要 少 于 1GB 的 词 表 空 间 ， 也 就 是 说 ， 对 于 合理 大 小 的 数据 集 ， 
词 表 通常 可 以 存储 于 内 存 中 。 倒 排 文件 中 的 列表 以 字母 顺序 存储 。 为 了 找到 一 个 倒 排 表 ， 搜 
索引 擎 使 用 二 元 查找 在 词 表 中 找到 最 近 的 条 目 ， 接 着 从 该 条 开始 读 取 念 移 量 ， 这 个 方法 对 于 
每 个 倒 排 表 仅 用 一 次 磁盘 寻 道 就 能 找到 。 

为 了 计算 一 些 特征 函数 ， 索引 需要 存储 特定 的 词汇 统计 信息 ， 例如 词 频 或 者 文档 频率 
( 见 第 4 章 ) 。 当 这 些 统计 和 某 一 特定 项 有 关 时 ， 它 们 能 容易 地 存储 于 倒 排 表 的 开始 部 分 。 一 些 
统计 和 语料库 相关 ， 例 如 文档 的 总 数 。 当 这 些 统计 不 多 时 ， 可 以 忽略 如 何 对 其 进行 高 效 的 存 
储 。Galago 在 一 个 称 作 manifest 的 XML 文件 中 存储 这 些 和 文档 集 有 关 的 统计 信息 。 

2. 文档 、 快 照 和 扩展 系统 

迄今 为 止 介绍 的 搜索 引擎 都 是 返回 文档 编号 的 列表 及 分 数 。 然 而 ， 一 个 真正 面向 用 户 的 
搜索 引擎 ， 需 要 显示 关于 每 个 文档 的 文本 信息 ， 如 文档 的 标题 、URL 或 者 文本 摘要 (第 6 章 将 
详细 介绍 ) 等 。 为 了 获取 此 类 信息 ， 文 档 的 文本 需要 被 检索 。 

第 3 章 中 介绍 了 一 些 为 快速 访问 而 设计 的 文档 存储 方式 。 有 许多 方法 可 以 解决 这 一 问题 ， 
但 是 最 后 ， 需 要 一 个 将 搜索 引擎 的 结果 从 数字 转化 为 人 们 可 以 读 取 的 独立 系统 。 


5.6 索引 构建 


在 索引 被 用 于 查询 处 理 之 前 ， 必 须 先 从 文本 集中 生成 。 构 建 一 个 小 型 的 索引 实际 并 不 困 
难 ， 但 是 随 着 输入 规模 的 增 大 ， 一 些 索 引 构造 技巧 就 变 得 很 有 用 了 。 我 们 首先 介绍 简单 的 内 
存 中 索引 构建 ， 接 着 考 碟 输入 数据 不 适合 都 在 内 存 中 的 情况 ， 最 后 考虑 在 多 人 台 机 器 上 如 何 建 
江 索 引 。 


5.6.1 简单 构建 


图 5-8 给 出 了 构建 简单 索引 的 伪 码 ， 处 理 仅 调用 很 少 的 步骤 。 一 系列 文档 传人 BuildIndex 
函数 ， 该 函数 将 每 个 文档 分 析 成 标记 ， 这 在 第 4 章 讨论 过 。 这 些 标记 都 是 单词 ， 可 能 使 用 一 些 
额外 的 处 理 ， 例 如 转 成 小 写字 母 或 者 提取 词根 。 该 函数 使 用 诸如 哈 希 表 来 删除 重复 的 标记 。 
接着 ,对 于 每 一 个 标记 ， 函 数 决 定 是 否 在 索引 /中 生成 一 个 新 的 倒 排 表 ， 如 果 需 要 ， 则 生成 。 
最 后 ， 在 倒 排 表 中 加 入 当前 的 文档 编号 n。 

”结果 是 一 个 标记 的 哈 希 表 及 倒 排 表 。 倒 排 表 就 是 文档 编号 的 列表 ， 不 包括 特别 的 信息 。 
如 5.3.1 节 所 示 ， 对 于 非常 简单 的 索引 ， 这 足够 了 。 
该 索引 器 能 应 用 于 许多 小 任务 ， 例如 索引 几 千 个 文档 。 然而 ， 有 两 点 限制 。 第 一 ， 
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求 所 有 的 倒 排 表 都 存 于 内 存 中 ， 对 于 较 大 的 文档 集 ， 这 可 能 不 太 可 行 。 第 二 ,. 算法 是 顺序 的 ， 
不 便于 并 行 处 理 。 该 算法 并 行 处 理 的 主要 障碍 是 哈 希 表 ， 在 内 循环 中 需要 经 常 访 间 它 。 对 哈 
希 表 加 锁 会 使 分 析 并 行 ， 但 是 对 于 充分 利用 CPU 的 多 个 内 核 ， 这 种 自 身 提升 并 不 足够 ， 处 理 
大 数据 集 需 要 较 少 地 依赖 于 内 存 ， 同 时 提高 并 行 性 。 


procedure BUILDINDEX(D) PD 是 一 个 文本 文档 集 
Ie aia > 倒 排 表 存 储 
n0 ” 上 文档 编号 
forall eer d & Ddo : 

ne-n+1 Con 
T +— Parse(d) ` l > 将 文档 分 析 成 标记 
Remove duplicates from T' 
for all tokens t E T do 
if I; g I then 
li Array() 
end if i 
g fia J;-append(n) 
| end for 
end for 
return J 
end procedure 





图 5-8 OS 


5.6.2 he 


解决 前 面 例子 中 内 存 问题 的 典型 做 法 是 融合 (merging). 我们 可 以 构建 倒 排 表 结构 7 直到 
内 存 耗 尽 。 这 时 ， 将 部 分 索引 / 写 到 磁盘 上 ， 然 后 开始 建造 新 的 索引 。 最 终 ， MENET 
BORA, hlbh, 1,。 然 后 系统 将 这 些 文件 融合 为 一 个 。 

REEL, AES BY RE A PB I. 所 以 输入 文件 需要 精细 地 设计 以 便 它们 
能 被 融合 。 一 个 途径 是 按照 字母 顺序 对 部 分 索引 排序 ， 以 便 用 非常 小 的 内 存 裔 合 部 分 索引 。 

图 5-9 给 出 了 这 种 融合 过 程 的 实例 。 即 使 此 图 仅 演示 了 两 个 索引 ， 同 时 融合 多 个 索引 也 是 
可 能 的 。 该 算法 本 质 上 和 标准 的 融合 排序 算法 一 致 。 既 然 0 和 7 都 是 排 好 序 的 ,它们 中 至 少 有 
一 个 指向 下 一 块 需要 写 人 7 的 数据 。 来 自 两 个 域 的 数据 交替 产生 排序 的 结果 ， .了 1 和 了 ,可 能 使 用 相 
同 的 文档 编号 ， 融 合 函 数 对 1 中 的 文档 重新 编号 。 
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图 5-9 索引 合并 实例 。 第 一 和 第 一 个 索 引 合 并 在 一 起 以 产生 合并 索引 . 


。 即使 只 够 存储 两 个 单词 Ce 和 wa)、 一 个 倒 排 表 posting， 以 及 一 些 文件 指针 的 内 存 ， 融合 
过 程 也 能 成 功 。 实 际 上 ， 为 了 更 有 效 地 利用 磁盘 ， 一 个 真正 的 融合 函数 可 以 读 取 很 大 的 h 和， 
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并 且 将 较 大 的 7 写 出 。 

这 一 融合 策略 也 显示 了 可 行 的 并 行 索引 策略 。 如 果 多 台 机 器 建造 它们 各 自 的 部 分 索引 ， 
一 台 机 器 就 可 以 合并 所 有 的 索引 ， 形 成 最 后 的 索引 。 然 而 ， 下 一 节 将 要 探索 更 新 的 分 布 式 索 
SHER, “CIE AR TUN TET TREK 
5.6.3 并 行 与 分 布 式 


传统 的 搜索 引擎 模型 一 直 使 用 一 台 快 速 的 机 器 来 生成 索引 和 处 理 查询 ， 这 仍然 适用 于 大 
量 的 应 用 ， 但 不 再 是 大 系统 的 好 选择 了 。 对 于 这 些 大 系统 ， 同 时 使 用 众多 廉价 的 服务 器 和 分 
布 式 处 理 软件 来 协同 它们 的 做 法 ， 正 逐渐 流行 起 来 。MapReduce 是 使 之 可 行 的 一 种 分 布 式 处 
理工 具 。 

两 个 因素 促成 了 这 一 变化 。 第 一 ， 这 些 大 的 系统 索引 的 数据 量 正 爆炸 式 增长 。 现 代 的 网 
络 搜索 引擎 已 经 索引 了 儿 百 亿 的 网 页 ， 但 是 更 大 的 索引 还 在 源源 不 断 地 出 现 。 想 一 想 如 果 地 
球 上 每 个 人 每 天 写 一 篇 博客 ， 互 联网 每 年 会 增加 两 万 亿 的 页 面 。 乐 观 的 来 看 ， 一 个 典型 的 现 
代 计 算 机 能 够 处 理 几 亿 页 面 ， 尽 管 不 具有 多 数 用 户 期 望 的 响应 时 间 。 这 在 互联 网 的 规模 和 我 
们 能 够 在 目前 单 台 机 器 上 处 理 的 规模 之 间 ， 遗 留 了 巨大 的 瀣 沟 。 注 意 这 一 问题 对 几 个 主要 的 
网 络 搜索 引擎 公司 来 说 并 不 严重 。 更 多 的 公司 是 想 分 析 (analyze) 互联 网 的 内 容 ， 而 不 是 要 
对 公众 服务 。 这 些 公司 有 相同 的 可 扩展 性 问题 。 

第 二 是 经 济 因素 。 个 人 电脑 不 可 思议 的 普及 ， 已 使 它们 变 得 非常 强大 和 廉价 。 相 反 ， 大 
型 计算 机 服务 于 非常 小 的 市 场 ， 因 此 没什么 机 会 发 展 规模 经 济 。 随 时 间 推 移 ， 规 模 的 不 同 使 
得 很 难 制造 一 台 比 个 人 电脑 强大 还 便宜 的 计算 机 。 许 多 大 型 的 信息 检索 系统 过 去 运行 在 大 型 
ERLE, 但是， 如今 选 择 的 平台 包括 了 许多 廉价 通用 的 服务 器 。 

廉价 服务 器 和 大 型 主机 相 比 有 一 些 缺 点 。 首 先 ， 容 易 坏 掉 ， 而 且 随 着 服务 器 的 增加 ， 出 
错 的 可 能 性 也 会 增加 。 其 次 ， 编 程 困 难 ， 大 部 分 程序 员 很 好 地 受训 于 单线 程 程序 设计 ， 很 少 
会 多 线程 或 多 进程 编程 ， 更 没有 多 少 懂 协作 式 网 络 程序 设计 。 已 经 开发 了 许多 程序 设计 工具 
箱 来 帮助 解决 这 类 问题 。RPC、CORBA、Java RMI 和 SOAP 已 经 被 开发 出 来 完成 路 机 器 的 函 
数 调 用 。MPI 提 供 一 种 不 同 的 抽象 ， 称 作 消息 传递 (message passing) ， 它 流行 于 许多 科学 计 
算 任务 中 。 这些 技术 没有 一 个 有 好 的 容错 性 ， 而 且 编 程 模型 很 复杂 。 实 际 上 ， 这 些 系统 对 于 
分 布 于 多 台 机 器 上 的 数据 没有 什么 帮助 ， 还 需要 程序 员 的 努力 来 完成 。 

1. 数据 放置 

在 深入 到 分 布 式 处 理 之 前 ， 先 来 考虑 在 单 台 机 器 上 处 理 大 规模 数据 的 问题 。 分 布 式 处 理 
和 大 规模 数据 处 理 有 共同 的 方面 ， 就 是 并 非 所 有 的 输入 数据 都 同时 可 用 。 在 分 布 式 处 理 中 ， 
数据 分 散 于 多 台 机 器 上 。 在 大 规模 数据 处 理 中 ， 大 部 分 数据 在 硬盘 上 。 这 两 种 情况 中 ， 高 效 
数据 处 理 的 关键 是 正确 地 放置 数据 。 

举 个 简单 的 例子 ,假设 有 一 个 包含 信用 卡 交 易 数 据 的 文本 文件 ， 每 行 包括 信用 卡号 和 人 金 
额 ， 如 何 计算 文件 中 单一 的 信用 卡号 的 个 数 呢 ? 

如 果 文 件 不 太 大 ， 可 以 读 取 每 一 行 ， 分 析出 信用 卡号 ， 并 用 哈 希 表 存 储 信 用 卡号 。 一 且 
整个 文件 都 读 完 后 ， 哈 希 表 将 为 每 个 单一 的 信用 卡号 包含 一 个 和 条目。 计算 哈 希 表 条 目的 个 数 
会 给 出 想 要 的 答案 。 但 是 对 于 大 文件 ， 哈 希 表 可 能 太 大 ， 以 至 于 不 能 存储 于 内 存 中 。 

现在 ， 假 设 有 相同 的 信用 卡 数据 ， 但 是 文件 中 的 交易 根据 信用 卡号 进行 了 排序 。 此 时 计 
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算 单一 信用 卡号 的 个 数 变 得 非常 简单 了 。 读 取 文 件 中 的 每 一 行 并 分 析出 信用 卡号 。 如 果 信 用 
卡号 和 上 一 个 不 同 ， 计 数 器 加 一 。 当 读 完整 个 文件 时 ， 计 数 器 就 是 文件 中 唯一 信用 卡号 的 个 
数 ， 此 时 不 需要 哈 希 表 。 

现在 回 到 分 布 式 计算 。 假设 有 不 止 一 台 计 算 机 用 于 此 项 计数 工作 ， 可 以 将 大 的 交易 文件 
分 割 成 小 文件 ， 每 个 计算 机 处 理 一 小 部 分 ， 然 后 结果 可 以 被 融合 到 一 起 ， 以 产生 最 终结 果 。 

开始 是 一 个 无 序 交 易 文件 。 接 着 将 这 个 文件 分 成 小 的 交易 组 ， 并 且 计 算 每 组 中 单一 的 信 
用 卡号 个 数 。 如 何 将 结果 合并 呢 ? 可 以 将 每 组 中 发 现 的 信用 卡号 的 数量 加 起 来 ， 但 这 并 不 正 
确 ， 因 为 相同 的 卡号 可 能 出 现在 不 止 一 个 组 中 ， 因 此 最 终 可 能 不 止 一 次 地 被 计数 了 。 相反 ， 
需要 保留 每 组 中 找到 的 单一 卡号 的 列表 ， 然 后 将 这 些 列表 合并 在 一 起 以 产生 最 终 的 结果 。 最 
终 列表 的 大 小 是 整个 集合 中 唯一 信用 卡号 的 数量 。 

相反 ， 假 设 交易 信息 被 更 细心 地 分 组 ， 以 至 于 所 有 相同 卡号 的 交易 被 分 到 一 组 中 。 有 了 
这 个 额外 的 限制 ， 每 组 就 可 以 分 别 计 数 了 ， 然 后 每 组 的 计数 相 加 形成 最 终 的 结果 。 由 于 不 可 
能 重复 计数 ， 因 此 不 需要 合并 ， 每 个 卡号 恰好 出 现在 一 组 中 。 

这 些 例 子 可 能 有 些 乏 味 ， 但 是 适当 的 数据 分 组 能 从 根本 上 改变 任务 的 性 能 特性 。 使 用 排 
好 序 的 输入 文件 让 计数 任务 变 得 简单 ， 内 存 的 需求 几乎 降 为 0， 同时 也 简化 了 分 布 式 计算 。 

2. MapReduce 

MapReduce 是 一 个 分 布 式 编程 框架 染 ， 它 致力 于 数据 放置 和 分 布 式 。 从 上 面 几 个 例子 可 以 
看 出 ， 适 当 的 数据 放置 可 以 简化 计算 问题 。 通 过 数据 放置 ，MapReduce 可 以 解决 一 些 通 常任 
务 中 的 并 行 问题 ,' 同 时 更 容易 处 理 大 量 数据 。 

MapReduce 的 名 字 来 自 两 块 代码 ， 它们 是 一 个 用 户 在 使 用 该 框架 时 需要 编写 的 ， Mapper 
和 Reducer。MapReduce 库 在 集群 上 自动 启动 大 量 Mapper 和 Reducer 任 务 。MapReduce 中 最 有 
意思 的 部 分 是 数据 在 Mapper 和 Reducer 之 间 传 递 的 途径 。 

在 介绍 Mapper 和 Reducer 如 何 工作 之 前 ， 先 来 看 看 MapReduce 的 基本 思想 。map 和 reduce 
函数 在 函数 式 语 言 中 很 常见 。 简单 地 说 ，map 国 数 把 一 个 项 列表 变换 为 另 一 个 相同 长 度 的 项 列 
表 。reduce 国 数 把 一 个 项 列表 变换 为 一 个 单一 项 。MapReduce 框 架 不 像 BRER - 样 严格 : 
Mapper 和 Reducer 都 可 以 返回 任意 项 数 。 然 而 * 总 体 的 想法 是 相同 的 。 
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假设 数据 来 自 一 个 记录 集合 ， 记 录 被 送 到 Mapper， 它 把 这 些 记 录 转 换 为 一 些 键 - 值 对 。 下 
一 步 是 混合 ， 是 由 库 自己 执行 的 。 这 一 操作 使 用 哈 希 函数 ， 以 便 所 有 键 相同 的 键 - 值 对 在 同一 
台 机 器 上 都 互相 挨 在 一 起 。 最 后 是 reduce 步 骤 ， 记 录 再 次 被 处 理 ， 但 是 这 次 是 在 组 中 ， 也 就 是 
同时 处 理 所 有 具有 相同 键 的 键 - 值 对 。 图 5-10 简 要 总 结 了 MapReduce 的 步骤 。 


procedure REDUCECREDITCARDS(key, values) 
procedure MapCrepirCarps(inpur) total — 0 
while not input.done() do card +— key 
record +— input.next() while not values.done() do 
card +— record.card amount <— values.next() 
amount < record.amount total 一 coral + amount 
Emit(card, amount) end while 
end while _ Emit(card, total) 
end procedure end procedure 








图 5-11 信用 卡 累加 算法 的 Mapper 图 5-12 信用 卡 累 加 算法 的 Reducer 


作为 MapReduce 任 务 ， 前 一 节 中 的 信用 卡 数据 例子 可 以 很 好 地 运转 。 在 Mapper ( 见 图 5- 
11) 中 ， 每 个 记录 被 分 成 键 (信用 卡号 ) 和 值 ‘交易 金额 )。 混 合 步 又 对 数据 排序 ， 以 便 有 相 
同 信 用 卡号 的 记录 最 终 互相 挨 在 一 起 。reduce 步 骤 对 每 个 唯一 的 信用 卡号 产生 一 个 记录 ， 以 便 
使 唯一 的 信用 卡号 的 总 数 怡 好 是 reducer 产 生 的 记录 数 。 

一 般 地 ， 假 设 Mapper 和 Reducer 都 是 等 等 的 (idempotent) 。 所 谓 等 客 ， 意 味 着 如 果 针 对 相 
同 的 输入 Mapper 或 者 Reducer 被 调用 多 次 ， 输 出 总 是 相同 的 。 这 种 等 宕 使 得 MapReduce 库 是 容 
错 的 。 如 果 任 何 计算 的 部 分 出 错 ， 可 能 是 由 于 硬件 错误 ，MapReduce 库 就 可 以 在 别 的 机 器 上 
处 理 那 部 分 输入 。 黄 至 当 机 器 不 出 错时 ， 有 时 机 器 因为 配置 错误 或 者 比较 慢 的 缺陷 处 理 也 会 
比较 慢 。 这 时 ， 一 台 不 正常 的 机 器 可 能 会 比 集群 中 其 他 机 器 更 慢 地 返回 结果 。 为 了 避免 这 种 
情况 ， 当 计算 接近 完成 时 ，MapReduce 库 发 布 备 份 (backup) Mapper 和 Reducer， 它 们 复制 在 
最 慢 的 机 器 上 的 处 理 。 这 保证 慢 机 器 不 会 成 为 计算 的 瓶 天 。Mapper 和 Reducer 的 实现 使 得 这 些 
成 为 可 能 。 如 果 Mapper 或 者 Reducer 直 接 修改 文件 ， 它 们 的 多 份 拷贝 就 不 能 同时 运行 。 

看 一 下 使 用 MapReduce 对 语料库 进行 索引 的 问题 。 在 索引 器 中 ， 将 存储 具有 单词 位 置 的 
倒 排 表 。 


procedure MAPDOCUMENTSTOPOSTINGS{input) 
while not input.done() do 
document — input.next() 
number + document.number 
position — 0 
tokens 一 Parse(document) 
for each word w in tokens do 
Emit(w, document:position) 
position = position + 1 










procedure REpUCEPosTINGSTOLIsTs(key, values) 
word 一 key 

WriteWord(word) 

while not input.done() do 












end for EncodePosting(values.next()) 
end while end while 
end procedure end procedure 











图 5-13 文档 的 Mapper 图 5-14 文档 的 Reducer 


AF RG) 0940 KARP 99 





MapDocumentsToPostings ( 见 图 5-13) 分 析 输 入 中 的 每 篇 文档 。 在 每 个 单词 位 置 ， 它 产 
生 键 值 对 : 键 是 单词 自身 ， 值 是 文档 :位 置 (document:position)， 也 就 是 文档 编号 和 位 置 并 列 
在 一 起 。 当 ReducePostingsToLists ( 见 图 5-14) 被 调用 时 ， 产 生 的 posting 已 经 被 混合 在 一 起 了 ， 
以 便 所 有 相同 词 的 posting 都 在 一 起 。Reducer 调 用 WriteWord 开 始 写 倒 排 表 ， 然 后 使 用 


EncodePosting 写 每 个 posting。 


5.6.4 更 新 


迄今 为 止 ， 一 直 假 设 索 引 是 批量 处 理 的 。 这 意味 着 文档 集合 作为 索引 器 的 输入 ， 索 引 器 
构建 索引 ， 然 后 系统 允许 用 户 进行 查询 。 实 际 上 ， 大 多 数 的 文档 集合 是 一 直 变 化 的 。 至 少 ， 
文档 集 倾向 于 随时 间 变 得 越 来 越 大 ， 每 天 都 有 新 的 新 闻 和 电子 邮件 。 其 他 情况 ， 例 如 网 页 搜 
索 或 者 文件 系统 搜索 ， 文 档 的 内 容 也 随 着 时 间 变 化 。 有 用 的 搜索 引擎 应 该 能 够 响应 动态 的 文 
HRE. 

可 以 用 两 种 技术 解决 更 新 问题 : 索引 合并 及 结果 合并 。 如 果 索 引 是 在 内 存 中 存储 的 ， 对 
于 快速 的 更 新 有 很 多 办 法 。 然 而 ， 即 使 搜索 引擎 在 内 存 中 对 查询 进行 评价 ， 一 般 索 引 也 是 存 
在 磁盘 上 的 ， 因 此 直接 基于 磁盘 的 更 新 并 不 简单 。5.6.2 节 介绍 了 索引 是 如 何 合并 在 一 起 的 。 
这 给 出 了 一 个 简单 的 方法 ， 用 来 在 索引 中 增加 数据 ,构建 一 个 新 的 、 较 小 的 索引 (1,)， 然 后 
与 老 的 索引 (1) 合并 ， 形 成 一 个 新 的 包含 全 部 数据 的 索引 (1) 。 在 合并 期 闻 ， 中 被 删除 的 
文档 的 posting 可 以 被 忽略 ， 以 至 于 它们 不 出 现在 [中 。 

当 索 引 和 更 新 大 批量 地 进行 时 ， 可 能 有 几 千 的 文档 同时 更 新 ， 索 引 合并 是 可 行 的 策略 。 对 
于 单一 文档 的 更 新 ， 这 不 是 一 个 好 的 策略 ， 既 然 将 整个 索引 写 入 硬盘 相当 耗 时 ， 那 么 对 于 这 
些小 的 更 新 ， 最 好 对 于 新 数据 构建 一 个 小 的 索引 ， 但 是 不 将 它 合 并 到 大 的 索引 中 。 查 询 分 别 
在 这 个 小 的 索引 和 大 的 索引 中 处 理 ， 结 果 被 融合 在 一 起 以 找到 前 k 个 。 

结果 合并 解决 如 何 处 理 新 文档 的 问题 ， 将 它们 加 入 新 的 索引 中 。 但 是 如 何 从 索引 中 删除 
文档 呢 ? 通常 使 用 一 个 被 删除 文档 列表 。 在 查询 处 理 过 程 中 ， 系 统 检查 被 删除 的 文档 列表 , 
确定 没有 被 删除 文档 进入 到 给 用 户 显 示 的 结果 列表 中 。 如 果 文 档 的 内 容 修改 了 ， 可 以 使 用 被 
删除 文档 列表 删除 旧 的 版 本 ， 然 后 在 最 新 的 文档 列表 中 加 入 新 的 版 本 。 

结果 合并 假设 有 一 个 较 小 的 、 在 内 存 中 的 索引 结构 来 保存 新 的 文档 。 这 一 内 存 中 的 结构 
可 以 是 一 个 输 希 表 ， 如 图 5-8 所 示 ， 因 此 即使 对 于 一 个 文档 ， 也 可 以 被 简单 快速 地 更 新 。 

为 了 获得 更 高 的 性 能 ， 与 其 只 使 用 两 个 索引 (内存 中 的 索引 和 基于 磁盘 的 索引 ) ， 不 如 使 
用 更 多 的 索引 。 既 然 每 个 新 的 索引 使 查询 处 理 变 慢 ， 和 那么 使 用 太 多 的 索引 不 是 一 个 好 主意 。 
然而 ， 使 用 太 少 的 索引 会 由 于 过 度 的 磁盘 访问 导致 索引 构建 过 程 变 慢 。 对 这 一 问题 特别 理想 
的 解决 方案 是 几何 分 割 (geometric partitioning) 。 在 几何 分 割 中 ， 最 小 的 索引 7 包含 内 存 中 能 
存 下 的 数据 ， 接 下 来 的 索引 包含 大 约 是 jo 的 r 倍 的 数据 。 如 果 m 是 机 器 中 内 存 的 字 节 数 ， 则 索 
引 包 含 mr" 和 (m+1)r" 之 间 的 字 节 的 数据 。 如 果 索 引 有 ,包含 超过 (m+1)r" 的 数据 ， 那 么 它 被 合并 
BUR SP. KURT =2， 那 么 系统 使 用 10 个 索引 可 以 存储 1000m 字 节 的 索引 数据 。 


5.7 查询 处 理 


一 且 索 引 被 建 好 ， 就 需要 处 理 其 中 的 数据 来 产生 查询 结果 。 即 使 使 用 最 简单 的 算法 ， 基 
于 索引 的 查询 处 理 也 要 比 不 基于 索引 的 快 得 多 。 然 而 ， 更 聪明 的 算法 可 以 加 速 查询 处 理 的 速 


100 ES 


度 几 十 其 至 上 百倍 。 我 们 首先 介绍 两 个 最 简单 的 查询 处 理 算法 :“document=at-a-time” 和 
“term-at-a-time”， 然 后 介绍 更 快 更 灵活 的 变种 。 


5.7.1 document-at-a-time 评 价 


至 少 在 概念 上 ，document-at-a-time 检 索 是 最 简单 的 使 用 倒 排 文件 进行 检索 的 方法 。 图 5- 
15 是 对 于 查询 “salt water tropical” 的 document-at-a-time 检 索 的 图 。 虽 然 posting 已 经 对 齐 了 ， 
倒 排 表 还 是 水 平 显示 ， 以 便 每 列表 示 一 个 不 同 的 文档 。 此 例 中 的 倒 排 表 包 含 词 频 ， 分 数 就 是 
每 个 文档 中 的 词 频 总 得。 垂直 的 灰色 的 线 v 指 出 检索 的 不 同步 最 。 第 一 步 ， 第 一 篇 文档 的 所 
有 的 词 频 被 加 起 来 生成 文档 的 分 数 。 一 旦 完成 对 第 一 篇 文档 计 分 ， 则 开始 第 二 篇 文档 ， 然 后 
是 第 三 篇 、 第 四 篇 。 


salt 


WE 

water 
tropical 

score 


图 5-15 document-at-a-time 查 询 评价 。 数 字 (x:y) 表 示 文 档 编 号 (xX) 和 词 计数 (y) 


图 5-16 显 示 了 这 一 策略 实现 的 伪 代 码 。 参 数 是 查询 QO， 索引 I， 特征 函数 集合 和 g， 检 索 
文档 个 数 k。 这 个 算法 使 用 5.2 节 中 的 抽象 相关 排序 模型 对 文档 打分 。 然 而 ， 在 这 个 简化 的 例子 
中 ,假设 只 有 非 零 特征 值 g(Q) 和 查询 中 的 词 相关 。 这 给 出 了 一 个 倒 排 表 和 特征 之 间 的 简单 的 
相关 性 : 对 于 查询 中 的 每 一 项 有 一 个 倒 排 表 ， 以 及 为 每 个 个 排 表 提 供 一 个 特征 。 本 章 后 面 将 
要 探究 有 结构 的 查询 ， 这 是 超越 这 个 简单 模型 的 标准 途径 。 


procedure DocumENTATATIMERETRIEVAL(Q, I, f, g, k) 
L + Array() 
Re PriorityQueue(k) 
for all terms w; in Q do 
l; — InvertedList(w;, I) 
L.add( l; ) 
end for 
for all documents d € I do 
for all inverted lists li in L do 
if l; points to d then l 
sp sp +gi(Q) fili) > 更 新 文档 分 数 
l;.movePastDocument( d ) 
end if 
end for 
R.add( sp, D} 
end for 
return the top k results from R 
end procedure 




















图 5-16 简单 的 document-at-a-time 检 索 算 法 | 
对 于 查询 中 每 个 词 w;， 从 索引 中 找到 一 个 倒 排 表 ， 假设 这 些 倒 排 表 以 文档 编号 排序 。 
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InvertedList 对 象 起 始 于 每 个 倒 排 表 的 第 一 个 posting， 所 有 被 找到 的 倒 排 表 存 储 于 数组 L 中 。 
在 主 循环 中 ， 函 数 为 文档 集中 的 每 个 文档 循环 一 次 ， 对 每 篇 文档 ， 所 有 倒 排 表 都 被 检查 ， 
如 果 在 一 个 倒 排 表 中 出 现 , 特征 函数 有 被 评价 , 并 且 文 档 分数 sp 通 过 加 上 权重 函数 的 值 来 计算 。 
然后 ， 倒 排 表 指针 指向 下 一 个 posting。 在 每 篇 文档 循环 结束 处 ， 计 算 一 个 新 的 文档 分 数 并 加 
到 优先 队列 R 中 。 
”为 清晰 起 见 ， 此 擅 代 码 可 以 进行 简单 的 性 能 提升 。 然 而 ， 实 际 上 ， 优 先 队 列 R 每 次 仅 需要 
包含 前 k 个 结果 。 如 果 查 询 包含 多 于 k 个 结果 ， 为 了 节省 内 存 ， 分 数 最 低 的 文档 可 以 被 删除 ， 
直到 只 留 下 kK 个。 在 文档 集合 的 所 有 文档 上 进行 循环 是 没 必要 的 ， 可 以 只 对 那些 最 少 出 现在 一 
个 倒 排 表 中 的 文档 打分 。 
这 个 方法 的 主要 好 处 是 节省 内 存 。 唯 一 主要 的 内 存 使 用 来 自 于 优先 队列 ， 一 次 只 需要 存 
储 k 个 条 目 。 然而， 在 实际 实现 中 ， 大 部 分 倒 排 表 在 评价 期 间 会 在 内 存 中 被 缓冲 起 来 。 
5.7.2 term-at-a-time 评 价 


图 5-17 显 示 了 使 用 与 term-at-a-time ( 见 图 5-15) 相同 的 查询 、 评 价 函数 以 及 倒 排 表 数 据 的 
term-at-a-time 检 索 。 注 意 ， 虽 然 每 个 图 的 结构 不 同 ， 但 是 两 个 图 中 的 分 数 计 算 完 全 相同 。 
salt | 1:1 JESE) 
Z 


旧部 分 分 数 


ver EQS 


新 部 分 分 数 E] [21] [42] 








最 终 分 数 





图 5-17 term-at-a-time 查 询 评价 


和 前 面 一 样 ， 灰 色 的 线 指明 每 步 之 间 的 界限 。 在 第 一 步 中 ,，“salt” 的 倒 排 表 被 解码 ， 并 
且 部 分 分 数 (partial score) 被 存 于 累加 器 (accumulator) 中 。 这 些 分 数 之 所 以 被 称 作 部 分 分 
数 ， 是 因为 它们 只 是 最 终 文 档 分 数 的 一 部 分 。 累 加 器 的 命名 来 自 于 它们 的 任务 ， 累 加 每 篇 文 
档 的 分 数 信 息 。 第 二 步 中 ， 来 自 累加 器 的 部 分 分 数 与 来 自 “water” 倒 排 表 的 数据 合并 ， 产 生 
新 的 部 分 分 数 集 合 。 来 自 “tropical” 倒 排 表 的 数据 在 第 三 步 被 加 入 后 ， 评 分 的 过 程 就 结束 了 。 

此 图 隐 含 为 每 个 倒 排 表 生成 一 个 新 的 累加 器 的 集合 。 这 是 一 个 可 能 的 实现 技术 ， 在 实际 
中 累加 器 是 存储 在 哈 希 表 中 的 。 每 篇 文档 的 信息 作为 被 处 理 的 倒 排 表 数 据 更 新 。 所 有 的 倒 排 
表 被 处 理 后 ， 哈 希 表 包括 最 终 的 文档 分 数 。 

对 于 抽象 相关 排序 模型 的 term-at-a-time 检 索 算法 ( 见 图 5-18) 开始 和 document-at-a-time 
相似 。 它 产生 优先 队列 并 且 为 查询 中 的 每 项 找到 一 个 倒 排 表 ， 这 和 document-at-a-time 算 法 很 
像 。 然 而 ， 接 下 来 的 一 步 则 不 一 样 。 不 是 在 索引 中 的 每 个 文档 上 循环 ， 外 层 循环 是 在 每 个 倒 
排 表 上 进行 的 。 内 层 循 环 然后 读 取 倒 排 表 的 每 个 posting， 计 算 特征 函数 8; 并 且 将 它 的 权重 
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加 到 累加 器 4 上 。 主 循环 结束 后 ， 扫 描 累 加 器 并 加 入 优先 队列 ， 以 决定 前 个 返回 结果 。 


procedure TERMATATIMERETRIEVAL(Q, I, f, g k) 
A + HashTable() 
L < Array() 
R e PriorityQueue(k) 
for all terms w; in Q do 
l; — InvertedList(w;, I) 
L.add( l; ) 
end for 
for all lists 1; € L do 
while J; is not finished do 
d +— l,.gevtCurrentDocument() 
Aa ~ Aa + gi(Q)f (L) 
li.moveIoNextDocument() 
end while 
end for 
for all accumulators Ag in A do 
sp — Ag P 累加 器 包含 文档 分 数 
R.add( sp, D) 
end for 
return the top k results from R 
end procedure 





图 5-18 简单 的 term-at-a-time 检 索 算 法 


term-at-a-time 算 法 的 主要 缺点 是 累加 器 表 4 需 要 占用 内 存 。 而 document-at-a-time 策 略 仅 需 
要 很 小 的 优先 队列 R， 它 包含 有 限 数 量 的 结果 。 然 而 ，term-at-a-time 算 法 通过 更 有 效 的 磁盘 访 
问 弥 补 了 此 不 足 。 它 从 头 到 尾 读 取 每 个 倒 排 表 ， 它 需要 最 小 的 磁盘 寻 道 并 昌 需 要 非常 小 的 缓 
冲 表 以 获得 较 高 的 速度 。 相 反 ，document-at-a-time 算 法 在 倒 排 表 之 间 切 换 并 且 需 要 较 大 的 缓 
冲 表 帮 助 降低 寻 道 的 代价 。 

实际 上 ，document-at-a-time 和 lterm-at-a-time 算 法 都 没 使 用 额外 的 优化 。 这 些 优化 能 急剧 
地 提高 算法 的 运行 速度 ， 并 且 对 节省 内 存 有 很 大 的 影响 。 
5.7.3 优化 技术 

对 于 查询 处 理 ， 主 要 有 两 类 优化 方法 。 第 一 类 是 从 索引 中 读 取 较 少 的 数据 ， 第 二 类 是 处 
理 较 少 的 文档 。 由 于 读 取 较 少 量 数据 的 同时 很 难 对 相同 数量 的 文档 打分 ， 因 此 这 两 类 方法 是 
相关 的 。 当 使 用 特别 复杂 的 特征 函数 时 ， 和 致力 于 对 较 少 的 文档 评分 是 主要 需要 考虑 的 。 对 于 
简单 的 特征 函数 ， 最 快 的 速度 来 自 于 忽略 尽 可 能 多 的 倒 排 表 数 据 。 

1. BARR MA 

在 5.4.7 节 中 ， 介 绍 了 跳 转 指针 。 这 类 向 前 跳 转 是 目前 最 流行 的 部 分 忽略 倒 排 表 的 方法 
( 见 图 5-19)。 更 复杂 的 方法 (例如 树 结 构 ) 也 是 可 能 的 ， 但 是 不 经 常 使 用 。 
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跳 转 指针 不 会 提高 读 取 倒 排 表 的 速度 。 假 设 有 一 个 n 字 节 长 的 倒 排 表 ， 在 每 c 个 字符 后 加 
入 跳 转 指针 ， 指 针 为 k 字 节 长 。 读 取 整 个 倒 排 表 需 要 读 取 @(m) 字 节 ， 但 是 使 用 跳 转 指 针 跳 过 倒 
排 表 需 要 BCUn/c) 时 间 ， 这 和 B(n) 相 当 。 其 至 没什么 运行 时 间 上 的 收获 ，c 因 子 可 以 很 大 ， 典 型 
的 值 是 c = 100, k=4， 跳 过 一 个 倒 排 表 仅 需要 读 取 爹 部 数据 的 2.5%。 

注意 随 着 c 变 大 ， 需 要 读 取 的 数据 减少 了 。 所 以 ， 为 什么 不 使 变 得 尽 可 能 大 呢 ? 问题 是 
如 果 c 变 得 太 大 ， 平 均 性 能 会 下 隆 。 下 面 详细 看 一 下 这 个 问题 。 

假设 想 要 在 倒 排 表 中 找到 p 个 posting， 读 倒 排 表 长 n 字 节 ， 每 c< 字 节 有 k 字 节 的 跳 转 指针 。 
因此 ， 倒 排 表 中 共有 n/c 个 间隔 。 为 了 找到 那 p 个 posting， 需 要 在 跳 转 指针 中 读 kn/c 字 节 ， 但 是 
也 需要 在 p 个 间隔 中 读数 据 。 平 均 来 讲 ， 假 设 需要 的 posting 在 两 个 跳 转 指针 的 中 间 位 置 ， 所 以 
读 取 额 外 的 pc/2 字 节 来 找到 那些 posting。 则 共 读 取 的 字 节 为 ， 


kn | pe 
C 2 


注意 ， 此 分 析 假 设 p 比 n/c 小 得 多 。 这 就 是 假设 每 个 posting 位 于 其 自身 的 间隔 的 原因 。 随 着 
P 增 长 接近 zc， 一 些 我 们 需要 的 posting 将 位 于 相同 的 间隔 。 注 意 ， 一 旦 p 接 近 mc， 就 需要 读 取 
几乎 所 有 的 倒 排 表 ， 所 以 跳 转 指针 不 是 很 有 用 了 。 

回 到 公式 ， 可 以 看 出 当 一 个 较 大 的 c 值 使 第 一 项 变 小 时 ， 它 也 使 第 二 项 变 大 。 因 此 ， 为 c 
选择 一 个 完美 的 值 依赖 于 p 值 ， 直 到 查询 被 执行 时 才 知 道 p 是 什么 。 然 而 ,使 用 先前 的 查询 模 
拟 跳 转行 为 并 且 获 得 一 个 较 好 的 估计 c 值 是 可 能 的 。 在 练习 题 中 ， 需 要 画 一 些 这 个 公式 的 图 ， 
来 获得 平衡 点 。 

虽然 倒 排 表 跳 转 似乎 能 够 节省 磁盘 访问 ， 但 是 实际 上 很 少 这 样 。 现 代 的 磁盘 对 于 序列 数 
据 的 读 取 要 比 随 机 跳 转 好 得 多 。 因 此 ， 在 任何 可 见 的 加 速 之 前 ， 大 多 数 磁盘 需要 跳 过 大 约 
100 000 个 posting。 即 便 如 此 ， 跳 转 仍 然 很 有 用 ， 因 为 它 降低 了 解码 那些 已 经 从 磁盘 上 读 取 的 
压缩 数据 的 时 间 ， 并 且 它 极 大 地 降低 了 处 理 缓存 在 内 存 中 的 倒 排 表 的 时 间 。 

2. 联合 处 理 

最 简单 的 查询 优化 方式 是 联合 处 理 (conjunctive processing)。 所 谓 联 合 处 理 ， 就 是 每 篇 
返回 给 用 户 的 文档 ， 需 要 包含 所 有 查询 项 。 联 合 处 理 是 许多 网 络 搜索 引擎 的 默认 模式 ， 部 分 
是 速度 原因 ， 部 分 是 因为 用 户 的 期 望 。 对 于 短 的 查询 ， 联 合 处 理 能 同时 提高 效率 和 效果 。 相 
反 ， 使 用 较 长 查询 的 搜索 引擎 ， 例 如 整个 段落 ， 联 合 处 理 就 不 是 一 个 好 的 选项 。 

当 有 一 个 查询 项 较 罕 见 时 ， 联 合 处 理 做 得 最 好 。 对 于 查询 “fish locomotion”， 单 词 “fish” 
的 频率 是 “locomotion” 的 100 倍 。 既 然 只 对 包括 两 个 词 的 文档 感 兴趣 ， 系 统 能 跳 过 “fish” 
倒 排 表 中 的 大 部 分 ， 以 便 找 到 同时 包括 “locomotion” 的 文档 的 posting。 

联合 处 理 能 用 于 term-at-a-time 和 document-at-a-time 系 统 。 图 5-20 为 联合 处 理 给 出 了 改进 
的 term-at-a-time 算 法 。 当 处 理 第 一 个 项 时 (i = 0)， 处 理 正 常 进行 。 然 而 ， 对 于 其 余 的 项 (i > 
0)， 算 法 在 第 14 行 开始 处 理 posting。 如 果 有 一 个 posting (17 行 )， 则 为 下 一 篇 包括 所 有 前 面 查 
询 项 的 文档 检查 累加 器 表 ， 并 构造 表 15 以 向 前 跳 到 那 篇 包括 所 有 前 面 查询 项 的 文档 。 如 果 该 
Posting 不 存在 ， 则 累加 器 被 删除 (21 行 )。 

document-at-a-time 版 本 ( 见 图 5-21) 与 老 的 document-at-a-time 版 本 很 类 似 ， 除 了 内 部 循 
环 。 它 从 找到 当前 被 倒 排 表 指向 的 最 大 的 文档 4d (11 行 ) 开始 ,文档 Gd 不 保证 包含 所 有 的 查询 
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项 ， 但 仍 是 一 个 可 行 的 候选 。 下 一 个 循环 试图 跳 过 所 有 倒 排 表 到 达 d 点 (14 行 )。 如 果 不 成 功 ， 
循环 结束 ， 另 一 篇 文档 4 被 选择 。 如 果 成 功 ， 次 文档 被 评分 并 且 加 入 到 优先 队列 中 。 








1: procedure TermAtATimeRetrieval(Q, I, f, 8, K) 
2: 4 一 LinkedListO 
3: 也 一 Array() 
4: R+PriorityQueue(k) 
5: for all terms w, in Q do 
6: i—InvertedList(w,, D) 
T: L.add(i;) 
8: end for 
9: for all lists I E L do 
10: 路 = 一 ] 
11: . while /; is not finished do 
12: if i = O then 
13: d—l,.getCurrentDocument() 
14: Ag Aa + {QD FG) 
15: else 
16: d—I,.getCurrentDocument() 
17: d‘'—A.getNextAccumulatorAfter(d) 
18: A.removeAccumulatorsBetween(dg, d) 
19: if /,.getCurrentDocument() = 2’ then 
20: Ag Aa + g{OF CU) 
21: Z,moveNextDocument(d'} 
22: else 
23: i,.skipForwardTo(d) 
24: end if 
25: dh=d 
26: end if 
27: end while 
28: end for 
29: for all accumulators A, in A do 
30: Sp Ag 马 累 加 器 包含 文档 分 数 
31: R.add (sp, D) 
32: end for 
33: return the top k results from R 





34: end procedure 
图 5-20 具有 联合 处 理 的 term-at-a-time 检 索 算 法 


在 两 个 算法 中 ， 当 第 一 个 表 (10) 晤 短 ， 最 后 一 个 表 (1) 最 长 时 ， 系 统 运行 得 最 快 。 这 导致 最 
后 一 个 表 中 的 最 大 可 能 跳 转 距离 ， 这 也 是 跳 转 最 有 帮助 的 地 方 。 

3. BYE A tk 

到 目前 为 止 ， 所 有 考虑 过 的 算法 都 设 有 过 多 地 探讨 参数 上 。X 是 用 户 需要 的 结果 的 数量 ， 
对 于 许多 搜索 应 用 ， 该 数字 通常 很 小 ， 如 10 或 者 20。 因 为 这 个 小 的 k 值 ， 倒 排 表 中 的 大 部 分 文 
档 将 从 来 不 会 显示 给 用 户 。 阅 值 方法 专注 于 此 k 参 数 ， 目 的 是 为 了 对 更 少 的 文档 打分 。 

实际 上 ， 对 于 每 个 查询 ， 有 某 一 最 小 分 数 是 每 个 被 检索 出 的 文档 都 需要 达到 的 。 该 最 小 
分 数 是 第 k 个 最 高 得 分 文档 的 分 数 。 任 何 没有 达到 此 分 数 的 文档 将 不 会 显示 给 用 户 。 在 本 节 中 ， 
将 使 用 希腊 字母 + 表示 该 值 ， 称 作 国 值 (threshold), 

如 果 能 在 处 理 查询 之 前 知道 合适 的 * 值 ， 许 多 查询 优化 将 变 得 可 能 。 例 如 ， 如 果 一 篇 对 用 
户 有 用 的 文档 至 少 需要 Tt 的 分 数 ， 就 可 以 避免 将 不 会 达到 Tt 值 的 文档 加 入 优先 队列 中 
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(document-at-a-time 情 况 下 )。 
| 1: procedure DOCUMENTATATIMERETRIEVAL(Q, I, f, g, k) o] 








2: L + Array() 
3 R + PriorityQueue(k) 
4 for all terms w; in Q do 
5: li — InvertedList(w,, 7) 
6: L.add( l; ) 
7: end for 
8: while all lists in L are not finished do 
9: for all inverted lists 1; in L do 
10: if 1;.getCurrentDocument() > d then 
11: d + l,.getCurrentDocument() 
12: endif 
13; end for 
14; for all inverted lists l; in L do l;.skipForwardToDocument(d) 
15: if l; points to d then 
16: Sa — sa + gi(Q) fille) > 更 新 文档 分 数 
17: 1;.movePastDocument( d ) 
18: else 
19: break 
20: end if 
21: end for 
22: R.add( sa, d ) 
23: end while 
24: return the top k results from R 








25: end procedure 





5-21 具有 联合 处 理 的 document-at-a-time 检 索 算 法 


遗憾 的 是 ， 不 进行 查询 的 评价 就 不 知道 如 何 计算 真正 的 r 值 ， 但 是 能 估计 它 。 这 些 估计 被 
称 作 Y 。 期 望 Y 委 T， 以 便 能 够 忽略 任意 分 数 小 于 的 文档 。 当 然 ，f 戴 接近 r， 算 法 运行 得 越 快 ， 
因为 它 忽 略 更 多 的 文档 。 

使 用 document-at-a-time 策 略 ， 给 出 估计 的 Tt' 很 容易 。R 保 留 评价 过 程 中 截至 当前 的 前 k 个 
分 数 最 高 文档 的 列表 。 假 设 R 已 经 有 上 篇 文档 了 ， 则 可 以 设 < 为 R 中 最 低 分 数 的 文档 的 分 数 。 使 
用 term-at-a-time 策 略 ， 直 到 查询 评价 快要 结束 时 才 有 全 部 文档 的 分 数 。 然 而 ,仍然 可 以 设置 Tt 
为 容 加 器 表 中 第 大 的 分 数 。 

4. MaxScore 

zz 有 了 合理 的 估计 值 ， 在 倒 排 表 中 就 可 以 忽略 一 些 数 据 。r 的 估 值 表示 一 篇 进入 最 终 相 关 
排序 表 的 文档 分 数 的 下 限 。 因 此 ， 可 以 忽略 倒 排 表 中 不 会 生成 比 t' 大 的 文档 分 数 的 那 部 分 
posting。 

下 面 用 一 个 简单 的 例子 更 仔细 地 看 一 下 这 是 如 何 做 到 的 。 考 虑 查询 “eucalyptus tree”， 单 
词 “tree” 的 频率 大 概 为 “eucalyptus” 的 100 倍 ， 所 以 对 此 查询 评价 的 大 多 数 的 时 间 花 费 在 对 
包含 “tree” 的 文档 的 评分 上 ， 而 不 是 “eucalyptus”。 这 没有 充分 利用 好 时 间 ， 因 为 要 找到 前 
k 个 包含 两 个 单词 的 文档 。 

图 5-22 显 示 了 实际 操作 上 的 影响 。 和 本 章 前 面 的 图 一 样 , “eucalyptus” 和 “tree” 倒 排 表 
的 posting 也 是 根据 文档 排 成 一 行 。 此 图 显示 有 许多 只 包含 单词 “tree” 但 不 包含 “eucalyptus” 
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的 文档 。 








图 5-22 对 查询 “eucalyptus tree” 的 MaxScore 检 索 。 灰 色 格 子 指出 打分 期 间 可 放心 忽略 的 posting 


假设 索引 器 在 “ tree” 倒 排 者 中 计算 最 六 的 部 分 分 数 ， BABA Mieco ARE SILAS i 
词 的 文档 可 能 获得 的 最 大 分 数 (MaxScore) 。 

假设 只 对 相关 排序 表 中 的 前 3 个 文档 感 兴趣 (也 就 是 k 为 3) 。 第 一 个 被 评分 文档 仅 包 括 单 
词 “tree”， 接 下 来 3 个 文档 包括 “eucalyptus” 和 “tree”。 我 们 将 使 用 Tt' 表 示 来 自 这 3 个 文档 的 
最 低 值 。 在 此 时 ,很 可 能 t’ > je。， 因 为 t 是 两 个 查询 项 都 包括 的 文档 的 分 数 ， 而 Le 是 仅 包含 
一 个 查询 项 的 文档 的 分 数 。 在 此 介绍 灰色 方 格 的 含义 。 一 旦 T' > As， 可 以 放心 地 跳 过 所 有 灰 
色 的 posting， 因 为 已 经 证 明 这 些 文档 将 不 会 进入 最 终 的 相关 排序 表 中 。 

虽然 图 中 的 posting 数 据 是 虚构 的 ， 但 是 对 于 真实 的 “eucalyptus” 和 “tree” 倒 排 表 ， 
“tree” 的 posting 有 99% 会 是 灰 格 子 ， 因 此 可 放心 地 忽略 。 这 种 跳 转 可 以 在 不 影响 查询 结果 质 
量 的 前 提 下 ， 和 急剧 降低 查询 时 间 。 

5. 提早 终止 

MaxScore 方 法 保证 查询 处 理 的 结果 无 论 经 过 优化 还 是 设 有 优化 ， 都 是 相同 的 。 然 而 在 有 
些 情况 下 ， 需 要 冒 质量 的 风险 ， 使 得 经 过 优化 的 结果 和 没有 优化 的 结果 不 相同 。 

为 什么 选择 这 么 做 呢 ? 一 个 原因 是 一 些 查 询 比 其 他 的 要 费劲 得 多 。 看 一 下 短语 查询 “to 
be or not to be”， 如 果 使 用 非常 一 般 的 查询 项 ， 会 产生 非常 长 的 倒 排 表 。 运 行 该 查询 会 严重 地 
降低 系统 资源 ， 以 至 于 不 能 为 其 他 查询 服务 。 为 此 ， 截 取 查 询 处 理 能 够 对 其 他 使 用 该 系统 的 
人 保证 公平 。 

男 一 个 原因 是 MaxScore 太 保守 。 它 不 会 逃 过 任何 可 能 会 包括 有 用 的 候选 文档 的 倒 排 表 区 
域 。 因 此 ，MaxScore 会 花 许 多 时 间 查 找 可 能 根本 不 存在 的 文档 。 冒 险 忽略 这 些 不 重要 的 文档 ， 
对 降低 系统 资源 的 消耗 很 有 益 。 

提早 终止 是 如 何 做 到 的 呢 ? 在 term-at-a-time 系 统 中 ， 可 以 通过 简单 地 忽略 一 些 常见 的 查 
询 项 来 做 到 。 这 和 使 用 停 用 词 没 有 太 大 区 别 。 另 外 ， 可 以 在 一 些 固定 数量 的 posting 被 读 取 后 ， 
不 再 考虑 其 他 项 。 此 处 的 原因 是 ， 在 处 理 大 量 的 posting 后 ， 相 关 排 序 很 好 地 完成 了 ， 读 取 更 
多 的 信息 不 会 改变 相关 排序 结果 。 这 对 于 含有 很 多 ( 儿 百 个 ) 项 的 查询 来 说 特别 适用 ， 例 如 
使 用 查询 扩展 技术 时 ， 很 可 能 会 是 这 样 。 

在 document-at-a-time 系 统 中 ， 提 早 终止 意味 着 忽略 倒 排 表 非 常 靠 后 的 文档 。 如 果 文 档 是 
随机 排序 的 话 ， 这 不 是 -个 好 主 昌 ， 但 这 不 是 必须 的 。 相 反 ， 文 档 能 够 以 一 些 质 县 指标 来 排 
序 ， 例 如 PageRank， 在 此 条 件 下 提早 终止 意味 着 忽略 质量 较 低 的 文档 。 

6. 倒 排 表 排 列 

目前 为 止 ， 本 章 中 所 有 的 例子 都 假设 倒 排 表 以 相 辣 的 顺序 排列 ， 即 文档 编号 。 如 果 文 档 编 
号 是 随机 的 ， 意 味 着 文档 是 以 随机 的 顺序 排列 的 。 这 很 容易 导致 与 查询 匹配 最 好 的 文档 排 在 
最 后 。 由 于 好 的 文档 在 倒 排 表 中 都 分 散 开 了 ， 所 有 可 行 的 查询 处 理 算 法 必须 读 取 或 者 跳 过 整 
个 倒 排 表 ， 以 保证 不 丢失 好 的 文档 。 由 于 这 些 倒 排 表 可 能 很 长 ， 需 要 考虑 更 好 的 排序 方式 。 
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一 个 提高 文档 排列 的 途径 是 基于 文档 质量 对 文档 排列 ， 这 和 前 面 章节 讨论 的 一 样 。 有 大 
量 可 用 的 质量 衡量 指标 ， 如 PageRank 或 者 用 户 点 击 的 数量 。 如 果 许 多 好 的 文档 已 经 被 找到 了 ， 
就 可 以 考虑 提早 停止 搜索 。 来 自 MaxScore 节 的 阔 值 技术 能 在 此 使 用 。 如 果 知 道 倒 排 表 中 的 文 
档 按照 质量 的 降序 排列 ， 就 可 以 在 检索 过 程 中 ， 在 倒 排 中 剩余 的 文档 上 计算 一 个 分 数 上 限 。 
当 Tt 超 过 剩余 文档 最 高 分 数 时 ， 检 索 可 以 在 不 损失 效能 的 情况 下 终止 。 

另 一 个 选项 是 对 每 个 倒 排 表 根 据 部 分 分 数 排序 。 例 如 对 于 “food” 倒 排 表 ， 可 以 首先 在 
储 包括 单词 “food” 许 多 实例 的 文档 。 在 互联 网 应 用 中 ， 这 相当 于 将 饭店 页 面 提 早 加 入 倒 排 
表 。 对 于 “dog” 倒 排 表 ， 可 以 首先 存储 关于 dog 的 页 面 (也 就 是 说 包含 许多 “dog” 的 实例 )。 
评价 一 个 关于 food 或 者 dog 的 查询 变 得 很 简单 。 然 而 ， 其 他 的 查询 会 很 难 。 例 如 ， 如 何 评价 查 
询 “dog food” We? 最 好 的 办 法 是 使 用 如 同 term-at-a-time 检 索 的 累加 器 表 。 然 而 ， 不 是 一 次 读 
取 整 个 倒 排 表 ， 而 是 仅仅 读 取 每 个 倒 排 表 的 一 小 部 分 。 一 旦 累加 器 表 显 示 已 经 找到 许多 好 的 
文档 了 ， 则 停止 查找 。 可 以 想像 ， 检 索 可 能 共 现 的 查询 项 会 变 得 更 快 ， 例 如 “tortilla 
guacamole”。 当 查询 项 不 太 可 能 共 现 时 ， 例 如 “dirt cheese”， 找 到 前 面 的 文档 将 花费 更 长 的 
时 间 。 

5.7.4 结构 化 查询 

在 迄今 为 止 已 经 看 到 的 查询 评价 的 例子 中 ， 假 设 每 个 倒 排 表 相 当 于 一 个 单一 的 特征 ， 并 
且 将 那些 特征 加 在 一 起 形成 最 终 的 文档 分 数 。 虽 然 在 简单 的 情况 下 能 运行 ， 但 是 可 能 希望 有 
一 个 更 有 趣 的 评分 函数 。 例 如 ， 在 图 5-2 中 ， 查 询 有 大 量 有 趣 的 特征 ， 包 括 一 个 短语 (tropical 
fish) ， 一 个 同义词 (chichlids)， 以 及 一 些 非 主题 特征 (例如 入 链接 )。 

一 种 途径 是 在 检索 系统 中 写 特别 的 相关 排序 代码 ， 以 检测 这 些 额外 的 特征 并 且 直 接 使 用 
倒 排 表 数据 计算 分 数 ， 但 这 是 比 仅 使 用 特征 的 线性 组 合 更 复杂 的 途径 。 该 方法 极 大 地 提高 了 
可 以 使 用 的 评分 方式 ， 并 且 非 常 有 效 。 遗 憾 的 是 不 够 灵活 。 

另 一 个 选择 是 构建 一 个 系统 支持 结构 化 查询 (structured query) 。 结 构 化 查询 是 使 用 查询 
语言 写 的 查询 ， 容 许 改变 查询 中 使 用 的 特征 以 及 那些 特征 的 组 合 方式 。 查 询 语言 不 是 普通 用 
户 使 用 的 。 相 反 ， 查 询 翻译 器 (query translator) 将 用 户 的 输入 转换 为 结构 化 查询 表达 。 此 翻 
译 过 程 正 是 系统 的 智能 所 在 ， 包 括 如 何 对 词 特 征 加 权 以 及 使 用 哪些 同义词 。 一 旦 此 结构 化 查 
询 被 生成 ， 它 就 交 给 检索 系统 执行 

你 可 能 已 经 对 此 类 模型 很 熟悉 了 ， 因 为 数据 库 系 统 正 是 如 此 工作 的 。 关 系数 据 库 使 用 结 
构 化 查询 语言 (Structured Query Language，SQL)。 许 多 重要 的 应 用 包括 一 个 用 户 界面 和 查 
询 语言 生成 器 ， 其 他 的 逻辑 都 由 数据 库 控制 。 将 应 用 逻辑 从 数据 库 逻 辑 中 分 离 出 来 ， 使 得 数 
据 库 变 得 既 高 度 优化 ， 又 高 度 通 用 。 

Galago 包 括 一 个 结构 化 查询 过 程 系 统 ， 将 在 第 7 章 擅 述 ， 此 查询 语言 也 在 习题 中 使 用 。 

图 5-23 给 出 了 一 个 结构 化 查询 的 树 形 表 示 ， 写 成 Galago 的 结构 化 查询 语言 为 : 
#combine(#od:1(tropical fish) #0d:1(aquarium fish) fish), 

此 查询 指明 文档 分 数 应 该 是 三 个 子 查询 的 组 合 。 第 一 个 查询 是 #od:1(Ctropical fish), 在 
Galago 查 询 语言 中 ，#od:1 操 作 符 的 意思 是 ， 其 中 的 项 在 匹配 的 文档 中 需要 依次 出 现 ， 并 且 依 
照 查 询 中 的 顺序 。#od:1(aquarium fishb) 也 是 一 样 ， 最 后 的 查询 项 是 fish。 每 个 子 查询 都 类 似 一 
个 文档 特征 ， 使 用 #combine 操 作 符 组 合 起 来 。 
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列表 数据 
图 5-23 结构 化 查询 #combine(#od:1(tropical fish) #od:1(aquarium fish) fish) 的 评价 树 


该 查询 包括 结构 化 查询 表达 式 的 主要 类 型 ， 在 树 的 最 底层 是 索引 项 ， 这 些 项 在 索引 中 对 
应 一 些 倒 排 表 。 再 上 一 层 是 临近 表达 式 ， 这 些 表 达 式 组 合 倒 排 表 以 生成 更 复杂 的 特征 ， 例 如 
出 现在 文档 标题 中 的 “fish” 的 特征 ， 或 者 “tropical fish” 作 为 一 个 短语 出 现 。 在 最 顶层 ， 从 
倒 排 表 中 计算 的 特征 数据 组 成 了 最 终 文档 的 分 数 。 在 此 层 ， 来 自 倒 排 表 的 位 置信 息 被 忽略 了 。 
l Galago 通 过 生成 一 个 迭代 对 象 树 来 评价 结构 化 查询 ， 和 图 5-23 显 示 的 树 很 像 。 例 如 ， 一 
个 迭代 器 返回 与 #od:1(tropical fish) 相 匹配 的 文档 。 此 迭代 器 使 用 “tropicali” 和 “fish” 的 和 迭 
代 器 来 发 现 这 些 匹配 的 文档 。#combine 操 作 符 是 文档 分 数 进 代 器 ， 使 用 #od:1(Ctropical fish), 
#od:1(aquarium fish) 以 及 fish 迭 代 器 。 一 且 类 似 于 此 的 友 代 器 被 建成 ， 对 文档 打分 就 仅仅 成 了 
对 各 个 文档 使 用 根 迭 代 器 了 。 

5.7.5 分 布 式 的 评价 

一 台 现 代 计 算 机 能 处 理 令 人 惊奇 的 数据 ， 也 许 对 大 多 数 任务 是 足够 的 。 然 而 ， 处 理 大 规 
模 语料库 或 者 大 量 用 户 ， 也 许 需 要 使 用 不 止 一 台 机 器 。 

使 用 多 台 机 器 的 一 般 方法 是 ， 将 所 有 查询 发 给 一 台 目 录 (director) 计算 机 。 然 后 该 目录 
机 将 消息 发 给 多 台 索 引 服 务 器 (index server) ， 它 们 各 自 做 查询 处 理 的 一 部 分 任务 。 目 录 机 然 
后 组 织 这 一 过 程 的 结果 ， 并 将 结果 发 送 给 用 户 。 

最 简单 的 分 布 式 策略 称 作 文档 分 布 式 (document distribution)。 在 此 策略 中 ， 每 台 索 引 服 
务 器 的 行为 类 似 于 整个 文档 集 一 小 部 分 数据 的 搜索 引擎 。 目 录 机 发 送 查询 的 拷贝 给 每 台 索 引 
服务 器 ， 每 台 机 器 返回 前 E 个 结果 以 及 每 个 结果 的 分 数 。 这 些 结果 由 目录 机 合并 为 一 个 相关 排 
序 表 ， 然 后 返 给 用 户 。 

一 些 相 关 排 序 算法 依赖 文档 集 的 统计 信息 ， 例 如 一 个 查询 项 在 文档 集中 出 现 的 次 数 或 者 
包括 一 个 查询 项 的 文档 的 个 数 。 这 些 统计 信息 需要 被 各 个 索引 服务 器 共享 ， 以 产生 可 比较 的 
分数， 方便 高 效 的 合并 。 在 非常 大 的 集群 中 ， 在 索引 服务 器 层 的 词 项 统计 信息 变化 很 大 。 如 
果 每 个 索引 服务 器 仅 使 用 其 自身 的 词 项 统计 信息 ， 相 同 的 文档 可 能 收 到 非常 不 同 的 分 数 ， 这 
有 赖 于 哪 台 索引 服务 器 被 使 用 。 

另 一 种 分 布 式 的 方法 称 作词 项 分 布 式 (term distribution) 。 在 词 项 分 布 式 中 ， 为 整个 集群 
建立 单一 的 索引 。 索 引 中 的 每 个 倒 排 表 然后 被 分 给 一 个 索引 服务 器 。 例 如 ， 单词 “dog” 可 能 
由 第 三 台 服 务 器 处 理 ， 然 而 “cat” 由 第 五 台 服 务 器 处 理 。 对 于 有 nn 个 索引 、k 个 查询 项 的 系统 ， 
所 有 查询 项 都 在 一 台 机 器 上 的 概率 是 1/n*'!。 对 于 有 10 台 机 器 的 集群 ， 对 3 个 查询 项 ， 概 率 仅 
为 1%。 因 此 ， 在 大 多 数 情况 下 ， 为 处 理 一 个 查询 的 数据 不 会 都 存储 于 一 台 机 器 。 

一 台 索 引 服务 器 ， 通 常 是 存储 最 长 倒 排 表 的 那 台 ， 被 选中 来 处 理 查询 。 如 果 其 他 索引 服 
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务 器 上 有 相关 的 数据 ， 则 通过 网 络 传送 给 它们 以 处 理 查 询 。 当 查询 处 理 完 成 后 ， 结 果 被 发 送 
给 目录 机 。 

词 项 分 布 式 方法 比 文档 分 布 式 方 法 复杂 ， 因 为 需要 在 机 器 间 传 送 倒 排 表 数据 。 给 出 倒 排 
表 的 大 小 ， 传 输 所 涉及 的 消息 能 充满 整个 网 络 。 另 外 ， 每 个 查询 仅 使 用 一 个 处 理 器 ， 而 不 是 
多 个 处 理 ， 与 文档 分 布 式 相 比 ， 这 增加 了 整体 查询 时 延 。 词 项 分 布 式 的 主要 优点 是 寻 道 时 间 。 
如 果 有 k 个 查询 项 以 及 n 个 索引 服务 器 ， 对 于 文档 分 布 式 系统 ， 处 理 一 个 查询 的 全 部 磁盘 寻 道 
数 是 Ol(kn)， 但 是 在 词 项 分 布 式 系统 中 ， 仅 需要 O(k)。 对 于 磁盘 受 限 的 系统 ， 特 别 是 寻 道 受 限 
的 系统 ， 词 项 分 布 式 可 能 更 有 吸引 力 。 然 而 ， 最 近 的 研究 显示 ， 词 项 分 布 式 不 太 值得 花费 如 
此 的 努力 。 


5.7.6 缓存 

第 4 章 给 出 了 文档 中 词 频 遵从 Zipfian 分 布 : 一 些 词 经 常 出 现 ， 但 是 大 量 的 词 出 现 的 频率 却 
很 低 。 查 询 的 分 布 也 是 类 似 。 一 些 查询 ， 例 如 关于 名 人 或 者 当前 的 事件 ， 在 公众 搜索 引擎 中 
会 非常 流行 。 然 而 ， 一 个 搜索 引擎 每 天 收 到 的 大 约 一 半 的 查询 是 唯一 的 。 

这 引出 了 对 缓存 (caching) 的 讨论 。 宽 泛 地 讲 ， 缓 存 的 意思 是 ， 存 储 一 些 以 后 可 能 会 用 
到 的 东西 。 在 搜索 引擎 中 ， 通 常 希望 缓存 对 于 查询 的 相关 排序 结果 ， 但 是 系统 也 可 以 缓存 来 
自 磁盘 的 倒 排 表 。 

缓存 对 于 搜索 引擎 十 分 适合 。 查 询 和 相关 排序 表 很 小 ， 也 就 是 在 缓存 中 存储 它们 不 需要 
占用 太 多 的 空间 。 相 反 ， 在 大 规模 语料库 上 处 理 查询 是 密集 计算 ， 这 意味 着 一 旦 相关 排序 表 
被 计算 出 来 ， 保 存 它 通常 是 很 有 意义 的 。 

然而 ， 缓 存 并 不 能 解决 所 有 性 能 问题 ， 因 为 每 天 收 到 的 大 约 有 一 半 的 查询 是 唯一 的 。 因 
此 ， 搜 索引 擎 自身 必须 能 非常 快 地 处 理 查询 。 这 导致 搜索 引擎 和 缓存 系统 之 间 的 竞争 。 最 近 
的 研究 建议 ， 当 内 存 空 间 吃紧 时 ， 缓 存 应 该 专注 于 最 常见 的 查询 ， 给 缓存 倒 排 表 留 下 足够 的 
空间 。 具 有 多 个 查询 项 的 唯一 查询 ， 仍 可 能 共享 项 词 并 且 使 用 相同 的 倒 排 表 。 这 解释 了 为 什 
么 倒 排 表 缓 存 能 够 有 比 查询 缓存 高 的 命中 率 。 

当 使 用 缓存 系统 时 ， 避 免 数 据 陈旧 很 重要 。 因 为 假设 查询 结果 不 会 随时 间 改 变 ， 缓 存 才 
有 意义 ， 最 终 确实 也 是 这 样 。 缓 存 需要 可 被 接受 的 失效 时 间 ， 以 容许 新 的 结果 。 当 处 理 5.6.4 
节 讨 论 的 分 割 的 索引 时 ， 这 很 容易 。 每 个 缓存 可 以 对 应 一 个 特定 的 索引 分 割 ， 当 那个 分 割 被 
删除 时 ， 缓 存 也 可 以 被 删除 。 记 住 ， 一 个 使 用 缓存 能 处 理 某 一 峰值 吞吐 量 的 系统 ， 在 不 使 用 
缓存 时 ， 将 处 理 小 得 多 的 吞吐 量 。 这 意味 着 ， 如 果 系 统 破坏 了 其 缓存 ， 在 缓存 变 得 相对 广泛 
之 前 ， 系 统 会 很 慢 。 如 果 可 能 ， 缓 存 刷新 应 该 在 非 负载 峰值 时 进行 。 
参考 文献 和 深入 阅读 

本 章 包括 许多 主题 : 索引 、 查 询 处 理 、 压 缩 、 索 引 更 新 、 缓 存 及 分 布 式 。 所 有 这 些 主题 
集中 于 一 章 ， 以 便 强调 这 些 模 块 是 如 何 一 起 工作 的 。 

为 了 了 解 这 些 模块 是 如 何 相互 联系 的 ， 研 究 真正 的 系统 很 有 用 。Brin & Page (1998) ST 
一 篇 关于 早期 搜索 引擎 系统 的 文章 ， 对 如 何 构建 一 个 完全 的 系统 是 很 有 益 的 概述 。 后 续 的 文 
章 展 现 出 搜索 引擎 的 体系 结构 已 经 变换 了 多 次 一 一 例如 Barroso 等 人 (2003), Dean and 


Ghemawar (2008) 的 MapReduce 文 章 给 出 了 关于 MapReduce 如 何 开发 和 实际 工作 的 更 详细 的 
介绍 。 
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商业 搜索 引 警 的 内 部 工作 原理 经 常 被 认为 是 商业 机 密 ， 因 此 它们 确切 的 工作 细节 通常 不 
会 公开 。 一 个 重要 的 例外 是 TodoBR 引 擎 一 一 一 个 流行 的 巴西 互联 网 搜索 引擎 ， 它 的 他 们 的 引 
擎 工作 原理 经 常 发 表 于 文章 中 。 例 如 他 们 关于 两 层 缓存 机 制 的 文章 (Saraiva et al., 2001) ， 还 
有 许多 其 他 的 文章 。 

Managing Gigabytes (Witten et al. 1999) 这 本 书 是 索引 构建 的 标准 参考 书 ， 特 别 是 它 关 
于 压缩 技术 的 讨论 。 倒 排 表 压缩 仍然 是 一 个 活跃 的 研究 领域 。 近 来 一 个 重要 的 研究 是 PFOR 系 
列 压缩 (Zukowski et al. 2006) ， 它 利用 现代 处 理 器 的 特点 所 开发 的 技术 ， 对 于 解压 小 整数 特 
别 快 。Biittcher and Clarke (2007) 在 最 新 的 硬件 上 比较 了 各 种 压缩 技术 。 

Zobel and Moffat (2006) 写 了 一 篇 关于 近期 倒 排 索引 重要 研究 进展 的 综述 文章 ， 既 包括 
索引 的 构建 ， 也 包括 查询 处 理 ， 该 文章 是 关于 此 研究 的 最 好 介绍 。 

Turtle and Flood (1995) 开发 了 MaxScore 系 列 算法 。Fagin 等 人 (2003) 使 用 相似 的 方法 ， 
虽然 他 们 不 是 最 先 将 其 应 用 于 信息 检索 的 。Anh and Moffat (2006) 改进 了 这 些 想 法 ， 建 造 了 
一 个 特别 高 效 的 检索 系统 。 

Anh and Moffat (2005) 和 Metzler 等 人 (2008) 涵盖 了 计算 能 够 被 存 于 倒 排 表 中 的 分 数 
的 方法 。 实 际 上 ， 这 些 文章 描述 了 如 何 计算 既 在 检索 中 有 用 ， 又 能 在 倒 排 表 中 紧密 存储 的 分 
数 。Strohman (2007) 探索 了 建立 打分 索引 以 及 基于 它们 处 理 查 询 的 整个 过 程 。 

本 章 中 的 许多 算法 都 是 基于 合并 两 个 排序 输入 的 ， 索 引 构建 依赖 于 此 ， 任 何 document-at- 
a-time 检 索 过 程 也 依赖 于 此 。Knuth 写 了 一 整 卷 关 于 排序 和 搜索 的 书 ， 包 括 大 量 关 于 合并 以 及 
关于 基于 磁盘 合并 的 材料 (Knuth, 1998)。 如 果 Knuth 的 书 太 难 懂 ， 那 么 任何 算法 教科 书 都 能 
给 你 关于 合并 的 更 细致 的 介绍 。 

Lester A (2005) 为 索引 更 新 开发 了 几何 分 割 方法 。Biittcher 等 人 (2006) 在 此 模型 中 
增加 了 一 些 额 外 的 内 容 ， 专 注 于 在 更 新 过 程 中 如 何 处 理 非常 通用 的 项 。Strohman and Croft 
(2006) 给 出 如 何在 不 停止 查询 处 理 的 情况 下 更 新 索引 。 


练习 


5.1 5.2 节 介绍 的 抽象 相关 排序 模型 ， 其 中 文档 和 查询 使 用 特征 表示 。 使 用 特征 表示 文档 和 查 
询 的 优点 是 什么 ? 缺点 是 什么 ? 

5.2 本 章 的 模型 包括 一 个 相关 排序 函数 R(C, D)， 每 篇 文档 和 查询 比较 计算 分 数 。 这 些 分 数 然 
后 用 于 确定 最 终 的 相关 排序 表 。 
某 个 相关 排序 模型 可 能 包含 不 同 的 相关 排序 函数 /4, B, 8)， 其 中 A 和 B 是 文档 集中 两 个 不 
同 的 文档 ，Q 是 查询 。 当 A 应 该 比 8 排 得 靠 前 时 ，f(4, 8, 8Q) 的 值 为 1， 否 则 为 一 1。 
如 果 有 一 个 相关 排序 函数 R(Q, D)， 请 问 如 何在 需要 f (A, B, 8) 形 式 的 系统 中 使 用 它 。 为 
什么 反之 不 可 行 呢 ? (在 需要 R(Q, D) 的 系统 中 ， 使 用 f(4, B, Q).) 

5.3 假设 你 建造 了 一 个 搜索 引擎 ， 使 用 100 台 计算 机 ， 每 台 存 储 100 万 篇 文档 ， 以 便 可 以 搜索 1 
亿 篇 文档 的 文档 集 。 你 倾向 于 类 似 R(Q, 六 的 相关 排序 图 数 还 是 /4, B, OWE? 为 什么 ? 
54 假设 你 的 搜索 引擎 利用 基于 相关 排序 函数 R(Q, D) 从 文档 集中 检索 出 50 篇 文档 。 你 的 用 户 

界面 仅 能 显示 10 个 结果 ， 但 是 你 可 以 从 前 50 篇 文档 中 选择 任意 文档 来 显示 。 为 什么 你 可 
能 会 给 用 户 显示 除了 前 10 篇 文档 外 的 其 他 文档 呢 ? 
5.5 文档 很 容易 包括 成 千 上 万 的 非 零 特 征 。 为 什么 查询 只 有 很 少 的 非 零 特 征 ? 
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5.6 


5.7 


5.8 


5.9 


索引 对 于 搜索 文档 并 不 是 必须 的 。 例 如 你 的 互联 网 浏览 器 具有 查找 功能 ， 可 以 不 使 用 索 
引 查找 文本 。 什 么 时 候 你 应 该 使 用 倒 排 索引 来 搜索 文本 ? 使 用 倒 排 素 引 的 优点 是 什么 ? 
缺点 是 什么 ? 

5.3 节 介绍 了 许多 在 倒 排 表 中 不 同 的 存储 文档 信息 的 方式 。 如 果 你 需要 一 个 非常 小 的 索引 ， 
尔 可 能 需要 哪 种 倒 排 表 ? 如 果 你 需要 查找 引用 ， 例 如 Kansas City 或 者 Sao Paulo, MEE 
哪 种 呢 ? 

写 一 个 程序 ， 它 能 够 建造 一 个 简单 的 文本 文档 倒 排 索 引 ， 每 个 倒 排 表 包括 文档 文件 名 。 
假设 文件 A 包含 文本 “the quick brown fox”， 文 件 B 包 含 “the slow blue fox”。 程 序 的 输 
出 应 该 为 : 

% ./your-program A B 

blue B 

brown A 

fox AB 

quick A 

slow B 

the A B 


5.4.1 节 中 ， 为 2 比特 位 二 进 制 数 字 生 成 了 一 个 无 歧义 的 压缩 方法 。 找 到 一 个 数字 序列 ， 当 
被 “压缩 ”时 ， 比 不 压缩 占用 更 多 的 空间 。 


5.10 假设 一 个 公司 为 2 比特 位 二 进 制 数 开 发 了 一 种 新 的 无 战 义 的 无 损 压缩 方法 ， 称 作 


5.11 


5.12 
5.13 


5.14 


5.15 


SuperShrink。 其 开发 者 声称 它 将 节省 任意 2 比特 位 数字 序列 。 证 明 该 开发 者 在 撒谎 ， 更 
细致 地 ， 证明: 

。SuperShrink 从 不 会 使 用 比 未 压缩 编码 更 少 的 空间 。 

。 对 于 SuperShrink， 有 一 个 输入 压缩 版 本 比 未 压缩 输入 更 长 。 

可 以 假设 每 个 2 比特 位 输入 数字 分 别 编码 。 

在 选择 压缩 算法 之 前 ， 为 什么 需要 知道 一 些 关 于 待 被 压缩 数据 类 型 的 信息 ? 具体 关注 习 
题 5.10 的 结果 。 

开发 一 个 Elias-y 编 码 器 。 验 证 该 程序 产生 与 表 5-2 一 样 的 编码 。 

当 执 行 两 项 布尔 与 查询 时 ， 其 中 一 项 出 现 一 百 万 次 ， 另 一 项 出 现 一 亿 次 ， 确 定 优化 的 跳 
转 距离 :。 假 设 一 旦 集中 于 一 个 适当 的 区 域 时 ， 使 用 线性 查找 。 

5.7.3 节 中 ， 看 到 优化 的 跳 转 距离 c< 可 以 由 kn/c+pc/2 的 最 小 值 决定 ， 其 中 k 是 跳 转 指针 的 长 
度 ，n 是 倒 排 表 的 大 小 ，c 是 跳 转 间隔 ，p 是 找到 的 posting 个 数 。 

画 出 该 函数 在 k=4，n=1 000 000, p=1 000 时 ， 随 c 变 化 的 曲线 。 然 后 再 画 出 当 p=10 000 
时 的 曲线 。 注 意 优化 的 c 值 是 如 何 变化 的 。 

最 后 ， 将 函数 kn/ctpc/2 对 c 求 导 ， 以 对 给 定 的 参数 集合 (k, n, p) 找到 c 的 最 优 值 。 
第 4 章 中 ， 学 到 了 Zipf 定 律 以 及 文档 集中 大 概 50% 的 词 仅 出 现 一 次 。 你 的 任务 是 使 用 
MapReduce 设 计 一 个 程序 ， 验 证 Zipf 定 律 。 

该 程序 输出 数字 对 列表 ， 形 如 : 

195840,1 


70944,2 
34039,3 


112 


5.16 


1, 333807 

此 输出 示例 指明 195 840 个 单词 在 集合 中 仅 出 现 一 次 ，70 944 个 单词 出 现 两 次 ，34 039 
个 单词 出 现 三 次 ， 但 是 有 一 个 词 出 现 了 33 3807 次 。 你 的 程序 为 一 个 文档 集合 打印 此 类 
列表 。 

程序 将 使 用 MapReduce 两 次 〈 两 个 Map 步 又， 两 个 Reduce 步 最 ) 以 产生 输出 。 

使 用 Galago 搜 索 工具 包 写 出 习题 5.15 的 程序 。 验 证 其 通过 索引 本 书 网 站 上 提供 的 


Wikipedia 文 档 集 是 正确 的 。 


第 6 章 查询 与 寞 面 


这 是 信息 检索 ， 不 是 信息 分 布 。 





Jack Lint,《 妙 想 天 开 》 
6.1 信息 需求 与 查询 


尽管 索引 结构 和 相关 排序 算法 是 搜索 引擎 的 核心 部 分 ， 但 是 从 用 户 的 角度 看 ， 搜 索引 擎 
主要 是 用 于 提交 查询 和 查看 搜索 结果 的 界面 。 用 户 无 法 改变 排序 算法 的 工作 方式 ， 但 是 他 们 
能 够 通过 构造 查询 、 浏 览 检索 结果 以 及 重 写 查询 的 过 程 ， 与 搜索 引擎 系统 进行 交互 。 这 些 交 
互 过 程 是 信息 检索 过 程 中 的 一 个 关键 部 分 ， 决 定 了 搜索 引擎 看 起 来 是 否 提 供 了 有 效 的 服务 。 
在 本 章 中 ， 要 讨论 查询 转换 和 提炼 (query transformation and refinement)、 收 集 与 显示 搜索 结 
果 (search result) 的 技术 。 同 时 还 要 讨论 跨 语言 搜索 引 | 区 (cross-language search engine), 
因为 它们 在 很 大 程度 上 依靠 查询 和 搜索 结果 的 转换 。 

在 第 1 章 中 ， 阐 述 了 信息 需求 是 用 户 使 用 搜索 引擎 的 动机 。 信 息 需 求 有 不 同 的 类 型 ， 研 究 
人 员 根 据 不同 的 维度 对 这 些 信息 需求 进行 归 类 ， 例 如 需要 查找 的 相关 文档 的 数量 ， 需 求 信 息 
的 类 型 ， 产 生 信息 需求 的 任务 等 。 并 且 指 出 了 在 有 些 情 况 下 ， 人 们 很 难 明确 地 说 明 他们 的 信 
息 需 求 是 什么 ， 这 是 因为 这 个 信息 在 他 们 所 拥有 的 知识 中 是 一 个 “缺口 ”9 。 从 搜索 引擎 设 
计 者 的 角度 上 观察 这 些 信 息 需求 ， 可 以 得 出 两 个 方面 的 重要 结论 : 

* 查 询 能 够 表达 完全 不 同 的 信息 需求 ， 可 能 需要 不 同 的 搜索 技术 和 排序 算法 来 产生 最 好 的 

排序 结果 。 

. 查询 仅仅 是 对 信息 需求 的 粗略 表达 。 当 用 户 发 现 难 以 表达 出 他 的 信息 需求 时 ， 所 提出 的 

查询 就 会 出 现 这 种 情况 。 然 而 ， 这 种 情况 的 产生 通常 是 由 于 搜索 引擎 鼓励 用 户 输 入 短 查 
询 导 致 的 ， 这 取决 于 搜索 引擎 的 接口 形式 ， 而 且 过 长 的 查询 检索 不 到 需要 的 结果 。 

第 一 个 方面 将 在 第 7 章 中 给 予 进一步 介绍 ， 第 二 个 方面 是 本 章 讨论 的 主题 。 我 们 将 给 出 提 
炼 查 询 的 一 些 技术 ， 如 拼写 纠 错 (spelling correction) 、 查 询 扩展 (query expansion) 和 相关 
反馈 (relevance feedback)， 这 些 技术 可 以 采用 自动 方式 或 与 用 户 交 互 的 方式 实现 。 提 炼 查询 
是 为 了 能 够 更 好 地 表达 信息 需求 和 随后 更 好 地 检索 文档 。 另 外 ， 检 索 结 果 显 示 的 方式 也 是 很 
重要 的 ， 可 以 帮助 用 户 理解 检索 结果 是 否 达 到 了 他 的 信息 需求 。 在 这 个 方面 ， 我 们 将 要 讨论 
的 技术 包括 页 面 摘要 生成 (snippet generation)、 检 索 结 果 聚 类 (result clustering) 和 文档 高 
亮 显 示 (document highlighting) ， 这 些 技 术 用 来 帮助 用 户 理解 检索 结果 。 

目前 在 搜索 引擎 上 最 常用 的 查询 形式 ， 是 采用 由 几 个 关键 词组 成 的 短 查 询 (在 大 量 的 网 
络 检索 研究 中 ， 查 询 长 度 平 均 为 2 到 3 个 词 ) ， 既 然 用 得 查询 表达 信息 需求 是 模糊 的 、 不 准确 
的 9， 人 们 为 什么 不 用 更 长 的 查询 呢 ? 这 是 有 原因 的 。 在 过 去 ， 搜 索引 擎 的 查询 语言 (query 





O jX#Belkin# 4) Anomalous State of Knowledge (ASK) 假设 (Belkin et al., 1982/1997 ) 。 
全 ”如 果 你 想 问 某 人 哪 种 热带 鱼 容易 饲养 ， 你 会 只 问 他 “热带 鱼 ” 或 “ 鱼 ” 吗 ? 
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language) 是 为 专家 或 搜索 中 介 (search intermediary) 使 用 而 设计 的 。 他 们 之 所 以 被 称 为 搜 
索 中 介 ， 是 由 于 他 们 担当 了 需要 查找 信息 的 人 和 搜索 引擎 之 闻 的 媒介 。 这 些 查询 语言 是 非常 
复杂 的 ， 下面 的 例子 是 搜索 中 介 在 提供 法 律 信息 的 搜索 引 敬 上 构造 的 一 个 查询 。 


用 户 查 询 (User query) : Are there any cases that discuss negligent maintenance or 
failure to maintain aids to navigation such as lights, buoys, or channel markers? 

搜索 中 介 查 询 (Intermediaries query) : NEGLECT! FAIL! NEGLIG! /5 MAINT! 
REPAIR! /P NAVIGAT! /5 AID EQUIP! LIGHT BUOY "CHANNEL MARKER" 


这 个 例子 中 的 查询 语言 采用 了 一 些 通配符 (wildcard) 和 各 种 形式 的 位 置 算 符 (proximity) 
来 指定 用 户 的 信息 需求 。 使 用 通配符 可 以 限定 与 查询 相 匹 配 的 单词 中 应 包含 的 最 小 匹配 长 度 
的 字符 串 。 例 如 ,“NEGLECT!” 将 匹配 单词 “neglected”、“neglects” 或 “neglect”。 

位 置 算 符 用 来 限定 与 查询 相 匹配 的 词 之 间 的 距离 限制 条 件 。 例 如 ， 词 汇 相 邻 的 限制 是 一 
种 类 型 位 置 算 符 ， 如 上 例 中 的 双 引 号 “CHANNEL MARKER” 指 定 了 这 两 个 单词 要 相 邻 。 而 
更 常见 的 窗口 操作 符 则 限定 了 允许 匹配 的 文本 窗口 的 宽度 〈( 按 词 计算 )。 例 如 ,，“/5” 指 定 了 
所 限制 的 词汇 必须 出 现在 五 个 词 宽度 的 文本 窗口 中 。 基 他 一 些 典型 的 位 置 算 符 还 限定 了 甸子 
和 段落 位 置 ， 例 如 “/P” 限 制 了 词汇 要 在 同一 段落 中 。 在 这 个 查询 语言 中 ， 如 果 没 有 特别 给 
出 限制 条 件 ， 就 假定 其 中 的 词汇 是 “或 ”(OR) 的 布尔 关系 。 

一 些 这 样 的 查询 语言 操作 符 也 可 以 用 在 搜索 引擎 界面 上 ， 例 如 用 引号 指定 一 个 短语 或 用 
“+” 指 出 必须 包含 的 词汇 ， 但 搜索 引擎 通常 更 侧重 于 使 用 简单 关键 词 查询 (有 时 称 为 “自然 
语言 ”查询 )， 以 便 大 多 数 人 都 能 够 自己 进行 查询 9S。 既然 我 们 希望 查询 的 构造 能 够 更 加 自然 ， 
那么 为 什么 不 鼓励 人 们 输入 更 详细 的 描述 以 表达 他 们 想 要 查找 的 内 容 ， 而 是 仅仅 采用 几 个 关 
键 词 昵 ?事实 上 ， 在 一 些 协作 式 问答 ( 某 些 人 提出 问题 ， 其 他 人 给 予 回答 ) 的 应 用 领域 ， 例 
如 在 10.3 节 描述 的 基于 社区 的 问答 系统 上 ， 查 询 的 平均 长 度 为 30 个 词 左右 。 问 题 在 于 当前 的 
搜索 技术 无 法 很 好 地 处 理 长 查询 。 例 如 ， 大 部 分 的 互联 网 搜索 引擎 仅仅 是 将 含有 查询 词 的 文 
档 进行 排序 。 如 果 一 个 人 提交 了 一 个 包含 30 个 词 的 查询 ， 最 可 能 的 结果 是 什么 都 没 找到 。 即 
使 找到 了 包含 所 有 词 的 文档 ， 但 在 搜索 结果 中 ， 往 往 也 没有 了 那些 符合 语法 结构 的 长 查询 中 
表达 出 的 隐 含 语言 含义 。 搜 索引 擎 上 采用 的 排序 算法 主要 是 基于 将 文本 看 作词 集合 的 统计 学 
方法 ， 而 不 是 基于 句法 或 语义 特征 。 

当 人 们 了 解 到 采用 长 查询 会 得 到 什么 样 的 搜索 结果 后 ， 很 快 就 学 会 了 如 何 得 到 更 可 靠 查 
询 结果 的 方法 ， 就 是 采用 与 他 们 要 查找 的 信息 相关 的 几 个 关键 词 去 构成 查询 。 但 是 这 显然 增 
加 了 用 户 的 负担 ， 我 们 将 要 描述 的 查询 提炼 技术 ， 就 是 要 减轻 用 户 的 负担 ， 并 且 改 善 那 些 粗 
略 表达 的 查询 。 


6.2 查询 转换 与 提炼 
6.2.1 停 用 词 去 除 和 词 干 提取 


正如 上 节 所 提 到 的 ， 旧 前 搜索 引 警 上 最 常用 的 查询 方式 是 采用 儿 个 关键 词 的 组 合 。 在 有 
些 查 询 中 ， 也 采用 引号 来 指定 一 个 短语 ， 或 者 用 “+” 限 定 必 须 包含 某 个 词 ， 但 是 在 本 章 接 下 


”搜索 引擎 在 内 部 可 能 仍 会 采用 复杂 的 查询 语言 (如 在 7.4.2 节 中 所 述 )， 但 是 不 用 在 界面 上 。 
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来 的 部 分 ， 我 们 做 了 一 个 简化 假设 ， 认 为 查询 只 是 简单 的 文本 形式 。 文 本 查询 最 初 的 处 理 
过 程 应 该 对 应 于 对 文档 的 处 理 步 骤 ， 在 查询 文本 中 的 词 应 转换 成 与 文档 文本 处 理 时 产生 的 词 
项 相同 的 形式 ， 否 则 在 排序 时 会 出 现 错误 。 尽 管 这 样 的 处 理 似 乎 是 显而易见 的 ， 但 是 却 成 为 
一 些 搜索 方案 中 出 现 问题 的 根源 。 而 且 在 查询 转换 和 文档 转换 中 ， 仍 存在 许多 的 不 同 之 处 ， 
特别 在 停 用 词 去 除 和 词 干 提取 处 理 上 。 对 于 其 他 一 些 处 理 步骤 ， 如 结构 分 析 、 词 素 切 分 ， 在 
查询 中 或 者 不 需要 这 些 处 理 (关键 词 查 询 没 有 语法 结构 )， 或 者 与 对 文档 的 处 理 方法 基本 上 是 
相同 的 。 

在 4.3.3 节 中 ， 提 到 了 可 以 不 在 索引 文档 时 去 除 停 用 词 ， 而 安排 在 处 理 查 询 的 时 候 。 在 索 
引 中 保留 停 用 词 ， 可 以 增加 系统 处 理 含有 停 用 词 的 查询 的 灵活 性 ， 对 停 用 词 的 处 理 可 以 像 普 
通 词 一 样 ( 留 在 查询 中 ), 或 者 去 除 它们 ， 或 者 在 某 些 条 件 下 保留 它们 (例如 ， 用 引号 或 者 
“+” 指 定 包含 它们 )。 

查询 的 词 干 提取 (query-based stemming) 是 增加 搜索 引擎 灵活 性 的 另 一 项 技术 。 如 果 在 
建立 索引 时 对 文档 中 的 词 进行 了 词 干 提取 处 理 ， 那 么 查询 中 的 词 也 必须 进行 词 干 提取 。 可 是 
在 有 些 情况 下 ,对 查询 进行 词 干 提取 会 降低 搜索 结果 的 准确 性 。 例如， 对 于 查询 “fish village” 
和 “fishing village”， 应 读 获 得 不 同 的 搜索 结果 ， 但 是 有 些 词 干 提取 算法 将 “fishing” 处 理 为 
“fish”。 如 果 索 引文 档 的 时 候 不 进行 词 干 提取 ， 我 们 就 能 够 在 处 理 查询 的 时 候 决 定 是 否 对 
“fishing” 提 取 词 干 。 可 以 根据 一 些 因 素 做 这 样 的 决定 ， 例 如 ， 是 否 这 个 词 是 被 引用 的 短语 中 
的 一 部 分 。 

为 了 使 查询 的 词 干 提取 能 够 获得 更 好 的 效果 ， 一 定 要 用 恰当 的 词 的 变形 来 扩展 查询 ， 而 
不 是 将 查询 词 减 少 到 只 剩 下 词 干 ， 因 为 并 没有 对 文档 进行 词 干 提取 。 如 果 用 词 干 “fish” 人 代替 
了 查询 词 “fishing”， 查 询 就 不 再 匹配 包含 “fishing” 的 文档 。 相 反 ， 查 询 应 该 扩展 到 包括 词 
“fish”。 查 询 扩 展 应 该 由 系统 (不 是 用 户 ) 根据 某 些 形式 的 同义词 操作 去 实现 ， 如 在 7.4.2 节 
中 所 述 。 或 者 也 可 以 用 词 干 和 词 来 索引 文档 ， 这 将 使 查询 执行 更 有 效 ， 但 是 索引 的 规模 也 会 
增加 。 

每 个 词 干 提取 算法 都 隐 含 着 产生 一 些 词 干 类 别 (stem class) 。 词 干 类 别 是 指 能 够 通过 词 干 
提取 算法 转换 成 相同 词 干 的 一 组 词 。 这 些 词 干 类 别 的 获取 方法 ， 是 在 一 个 大 规模 的 文本 集合 
上 运行 词 干 提取 算法 ， 并 记录 哪些 词 能 够 映射 到 给 定 的 词 干 上 。 词 干 类 别 的 数目 可 以 十 分 庞 
大 。 例 如 ， 这 里 展示 了 三 个 词 干 类 别 ， 它 们 是 通过 在 TREC 新 闻 集 上 采用 Porter 词 干 提取 器 获 
得 的 (每 个 词 千 类 别 中 的 第 一 个 词 是 词 干 )。 

fbank banked banking bankings banks 

/ocean oceaneering oceanic oceanics oceanization oceans 

/polic polical polically police policeable policed 

-policement policer policers polices policial 

-policically policier policiers policies policing 

-policization policize policly policy policying policys 

这 些 词 干 类别 中 ， 不 仅 包含 较 多 的 词 (“polic” 类 包含 22 个 词 ) ， 而 且 也 包含 一 些 错误 。 
与 “police” 和 “policy” 相 关 的 词 ， 不 应 包含 在 相同 的 词 干 类 别 中 ， 而 且 这 也 会 影响 排序 淮 
确 率 。 尽 管 其 他 的 词 没 有 错 ， 但 可 能 会 用 在 不 同 的 上 下 文中 。 例 如 ,，“banked” 更 常用 在 讨论 








日 ”根据 对 最 近 的 网 络 查 询 的 样本 分 析 ， 用 引号 的 查询 约 占 1.5% 左 右 ， 而 用 “+” 的 查询 不 到 0.5%。 
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飞行 或 水 池 的 时 候 ， 但 是 这 个 词 干 类 别 中 的 其 他 词 ， 更 常用 在 与 金融 相关 的 论述 上 。 如 果 在 
扩展 查询 时 直接 使 用 词 干 类 别 ， 那 么 词 干 类 别 中 词 的 数量 也 是 一 个 问题 。 给 一 个 简单 的 查询 
扩展 了 22 个 词 ， 显然 会 影响 系统 的 响应 时 间 ， 并且 如 果 没 有 正确 地 使 用 同义词 操作 符 
(Synonym operator) ， 那 么 可 能 引起 检索 错误 。 

这 两 个 问题 能 够 通过 文本 集合 中 词 的 共 现 分 析 来 处 理 ， 进 行 这 样 的 分 析 是 基于 这 个 想法 : 
能 够 互相 替换 的 词 的 变形 ， 应 该 经 常 在 文本 中 共 现 。 我 们 采用 如 下 具体 处 理 步骤 ， 

1) 对 于 词 干 类 别 中 的 每 对 词 ， 计 算 它 们 在 W 个 词 的 文本 窗口 中 共 现 的 次 数 ，W 通 常 取 
50~100 个 词 。 

2) 对 于 每 对 词 计算 共 现 或 关联 度 (association) 指标 ， 这 用 来 衡量 词 之 间 的 关联 程度 。 

3) 构造 一 个 图 ， 其 中 顶点 代表 词 ， 如 果 词 共 现 的 指标 大 于 闹 值 7?， 则 用 边 连 接 它 们 。 

4) 找到 这 个 图 的 联通 分 支 (connected component)， 它 们 构成 一 个 新 的 词 干 类 别 。 

在 TREC 实 验 中 的 词 项 关联 度 衡量 方法 (term association measure)， 是 采用 戴 斯 系数 
(Dice’s coefficient) 计算 的 。 这 个 方法 最 早 在 20 世 纪 60 ~ 70 年 代 就 被 用 在 词 项 相似 度 计算 和 
自动 叙 词 表 构 建 的 研究 中 。 如 果 ns 是 包含 词 a 的 窗口 (或 文档 ) 数量 , 是 包含 词 5 的 窗口 数量 ， 
nw 是 包含 词 a 和 词 b 的 窗口 数量 ，N 是 集合 中 文本 窗口 的 数量 ， 那 么 戴 斯 系数 为 2 :nop/(nstn)， 
这 是 一 个 简单 的 词 共 现 比例 值 。 还 有 一 些 其 他 的 关联 度 衡量 方法 ， 将 在 6.2.3 节 中 介绍 。 

一 个 图 中 的 两 个 顶点 间 如 果 存 在 路 径 ， 它 们 就 处 于 同一 联通 分 支 中 。 这 个 图 可 以 表示 词 
的 关联 ， 联 通 分 支 可 以 作为 词 的 群集 (cluster) 或 词 的 聚合 (group)， 其 中 每 个 词 都 至 少 与 在 
群集 的 徐 中 一 个 其 他 的 词 有 高 于 阔 值 7 的 关联 。 参 数 7 根 据 经 验 设 定 。 在 9.2 节 我 们 将 讨论 这 种 
聚 类 以 及 其 他 的 聚 类 方法 。 

把 这 个 方法 应 用 在 上 面 的 三 个 词 干 类 别 的 例子 中 ， 使 用 TREC 数 据 进行 词 共 现 分 析 ， 会 获 
得 下 面 的 联通 分 支 : 

/policies policy 

{police policed policing 

/bank banking banks 

在 这 个 新 的 词 干 类 别 中 ， 词 的 数量 少 了 ， 也 将 不 恰当 的 分 组 〈 例 如 “policy ”和 
“police”) 分 离 出 去 了 。 一 些 实验 结果 表明 ， 这 个 方法 通常 在 一 般 的 查询 扩展 上 能 够 获得 较 
好 的 排序 效果 。 

对 于 “fishing village”， 这 个 查询 怎么 样 呢 ? 通过 共 现 分 析 获 得 的 词 干 类 别 是 : 

/fish fished fishing 


这 意味 着 并 没有 解决 这 个 问题 。 正 如 前 面 提 到 的 ， 查 询 上 下 文 决定 了 词 干 提取 是 否 恰当 。 
用 词 “fish” 和 “fished” 扩 展 “fishing in Alaska”， 这 个 查询 是 合理 的 ， 但 是 不 适合 用 在 查询 
“fishing village” +, 前面 描 述 的 共 现 分 析 ， 用 到 了 一 般 形式 的 上 下 文 ， 但 没有 达到 对 一 些 具 
体 查 询 词 的 共 现 进行 处 理 。 

目前 在 一 些 应 用 中 (如 网 络 检 索 )， 大 量 的 查询 日 志 (query log) 也 成 为 可 利用 的 资源 ， 
利用 这 些 资源 的 统计 分 析 ， 可 以 验证 提取 的 词 干 ， 其 至 获取 词 干 类 别 。 对 含有 相同 词 的 查询 ， 
从 中 分 析 趋 向 于 共 现 的 词语 变形 ， 这 可 以 作为 “fish/fishing” 问 题 的 一 种 解决 方法 ， 因 为 
“fish” 与 “village” 共 现在 一 个 查询 中 的 可 能 性 很 小 。 

与 4.3.4 节 中 所 描述 的 方法 相 比 ， 这 个 词 干 提取 方法 可 以 认为 是 基于 词典 的 方法 ， 其 中 词 
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典 是 基于 规则 省 算式 词 干 提取 器 的 输入 ( 即 词 干 类 别 ) 自动 生成 的 。 这 个 方法 也 可 以 用 在 不 
具备 规则 演算 式 词 干 提取 器 的 词 干 提取 处 理 中 。 这 时 ， 词 干 类 别 采用 非常 简单 的 判别 标准 ， 
例如 将 具有 相似 n 元 文法 的 所 有 词 聚 合 在 一 起 。 一 个 简单 的 例子 是 ， 将 前 三 个 字符 相同 的 词 聚 
成 一 类 。 这 些 初 始 词 干 类 别 的 规模 要 比 规则 演算 式 词 干 提取 器 获得 的 类 别 大 很 多 ， 但 是 通过 
共 现 分 析 ， 使 得 最 终 得 到 的 词 干 类 别 的 规模 ， 减 小 到 与 规则 演算 式 词 干 提取 器 获得 的 类 别 相 
似 的 大 小 。 检 索 实 验 结果 证 实 了 ， 采 用 规则 演算 式 词 干 提取 器 和 基于 n 元 文法 类 别 的 词 干 提取 
器 ， 在 排序 效果 上 只 有 很 小 的 差别 。 


6.2.2 拼写 检查 和 建议 


拼写 检查 是 查询 处 理 过 程 中 极为 重要 的 部 分 。 在 网 络 搜索 引擎 中 ， 大 约 有 10 色 一 15% 的 查 
询 中 包含 拼写 错误 。 人 们 通常 采用 “Did you mean: .…” 的 形式 来 纠正 这 些 错误 。 在 查询 日 志 
中 ,包含 大 量 的 像 下 面 这 些 简 单 错误 的 例子 (从 一 个 最 近 的 网 络 查 询 样 本 中 获得 ); 

poiner sisters 

brimingham news 

catamarn sailing 

hair extenssions 

marshmellow world 

miniture golf courses 

psyhics 

home doceration 
这 些 错误 与 在 字 处 理 文档 中 出 现 的 错误 很 相似 。 但 是 在 一 些 查询 中 ， 包 含 与 网 址 、 产 品 、 公 
司 和 个 人 相关 的 词 ， 这 些 词 在 标准 拼写 字典 (standard spelling dictionary) 中 ,几乎 不 可 能 被 
找到 。 下 面 是 在 同一 查询 日 志 中 的 一 些 例子 : 

realstateisting.bc.com 

akia 1080i manunal 

ultimatwarcade 


mainscourcebank 
dellottitouche 


查询 中 拼写 错误 的 严重 程度 以 及 种 类 的 多 样 性 ， 提 出 了 一 项 重要 的 挑战 。 为 了 讨论 在 搜 
索引 擎 中 ， 哪 些 拼写 校正 技术 是 最 有 效 的 ， 首 先 ， 我 们 回顾 一 下 在 普通 文本 中 ， 是 如 何 进 行 
拼写 校正 的 。 

在 一 些 拼写 检查 工具 中 ， 采 用 的 基本 方法 是 对 于 在 拼写 字典 (spelling dictionary) 中 没有 
的 词 ， 就 建议 更 正 它 们 。 将 在 字典 中 没有 的 词 与 字典 中 包含 的 那些 词 进行 比较 ， 并 根据 他 们 
之 间 的 一 个 相似 度 衡量 标准 ， 来 提出 更 正 建议 。 最 常用 的 一 个 词 之 间 比 较 的 衡量 标准 是 编辑 
距离 (edit distance) ， 编 辑 距 离 是 将 一 个 词 通过 编辑 转换 成 另 一 个 词 所 需要 的 操作 数 。 
Damerau-Levenshtein 距 离 (Damerau-Levenshtein distance) 是 指 通过 计算 这 个 转换 过 程 中 单 
个 字符 插入 、 删 除 、 替 换 、 交 换 的 最 少 次 数 9S 。 研 究 显示 ，80% 或 更 多 的 拼写 错误 是 由 于 这 类 
单个 字符 错误 引起 的 。 . 

下 面 是 Damerau-Levenshtein 距 离 为 1 的 一 些 词 转换 例子 ， 它 们 只 需要 一 个 操作 或 编辑 ， 就 


© ”Levenshtein 与 其 相似 ,但 没有 将 交换 作为 基本 操作 。 
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B 
a 
地 


能 够 生成 一 个 正确 的 词 ， 
extenssions 一 extensions (插入 型 错误 ) 
poiner 一 pointer 《删除 型 错误 ) 
marshmellow 一 marshmallow (替换 型 错误 ) 
brimingham 一 birmingham (交互 型 错误 ) 
AI, FEdoceration 一 decoration 的 转换 过 程 中 ， 编 辑 距离 为 2， 因 为 有 两 步 编辑 操作 : 


doceration 一 deceration 
deceration 一 decoration 


提高 错误 拼写 的 词 与 字典 中 的 词 之 间 编 辑 距离 的 计算 速度 ， 可 以 采用 各 种 方法 和 数据 结 
构 ， 包括 只 计算 包含 有 相同 的 首 字母 的 词 (因为 拼写 错误 很 少 出 现在 第 一 个 字母 上 )， 有 相同 
或 相似 长 度 的 词 (因为 拼写 错误 很 少 改变 词 的 长 度 )， 以 及 读音 相同 的 词 8 。 对 于 最 后 的 这 种 
情况 ， 采 用 发 音 规 则 将 词 进行 编码 ， 有 相同 编码 的 词 被 作为 可 能 的 校正 词 。Soundex 编 码 
(soundex) 是 一 种 简单 的 语音 编码 (phonetic code)， 它 最 初 被 用 来 处 理 病 历 卡 上 的 名 字 匹 配 问 
题 。 这 个 编码 的 规则 如 下 : 

1) 保留 第 一 个 字母 《用 大 写字 母 ) 

2) 用 连 字符 替换 这 些 字母 : a, e, i, o, u, y, h, w, 

3) 用 数字 替换 下 面 这 些 字母 : 

b, f, p, v 

c, g, j, K, q, S, X, Z 
d, t 
1 


>n 


AU A WN — 


4) 删除 相 邻 的 重复 的 数字 。 

5) 删除 连 字 符 

6) 保留 前 三 个 数字 或 用 0 延长 到 三 个 字符 。 
这 些 编码 的 一 些 例子 如 下 : 

extenssions —> E235; extensions — E235 
marshmellow — M625; marshmallow — M625 
brimingham — B655; birmingham — B655 

poiner — P560; pointer — P536 


最 后 的 例子 显示 了 ， 正 确 的 词 也 不 会 一 直 有 相同 的 Soundex 码 。 还 有 一 些 为 拼写 校正 而 开 
发 的 更 精细 的 语音 编码 方式 (例如 ，GNU Aspell 拼 写 检查 器 采用 的 语言 编码 )。 

设计 这 些 编码 是 为 了 在 这 些 编码 (code) 上 计算 编辑 距离 ， 可 以 减少 寻找 正确 词汇 的 搜 
索 过 程 。 

一 个 拼写 错误 会 有 多 个 可 能 的 更 正 形 式 ， 例 如 ， 拼 写 错 误 “lawers” 可 能 会 有 下 列 编辑 距 
离 为 1 的 更 正 形 式 ; lawers 一 lowers、lawyers、layers、lasers、]lagers。 拼 写 校 正 程序 要 决定 是 
否 将 所 有 这 些 词 都 展示 给 用 户 ， 并 且 以 什么 样 的 顺序 展示 。 一 个 典型 的 策略 是 ， 按 它们 在 语 


O ”两 个 词 发 音 相同 但 是 意义 不 同 ， 成 为 同音 词 (homophone), 
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言 中 出 现 频率 的 递减 顺序 呈现 。 注 意 ， 这 种 处 理 方式 没有 使 用 拼写 错误 的 上 下 文 。 例 如 ,在 
查询 “trial lawers” 中 出 现 的 拼写 错误 ， 不 会 影响 到 建议 更 正 词汇 的 展示 顺序 。 在 拼写 校正 过 
程 中 不 考虑 上 下 文 ， 也 使 得 在 查询 中 的 一 些 拼写 错误 被 忽略 了 ， 因 为 这 些 拼写 错误 产生 了 另 
一 个 词 。 例 如 ， 在 查询 “miniature golf curses” 时 ， 显 然 是 单个 字符 删除 错误 的 例子 ， 但 是 其 
中 的 拼写 错误 产生 了 词 “curses”， 这 个 词 本 身 是 正确 的 ， 所 以 就 不 能 检测 到 这 个 查询 中 的 拼 
写 错误 。 

采用 “Did you mean...” 方 式 的 典型 界面 中 ， 要 求 拼写 检查 器 生成 一 个 简单 的 并 且 最 优 的 
建议 。 这 意味 着 查询 的 拼写 检查 与 字 处 理 的 拼写 检查 相 比 ， 利 用 上 下 文 和 频率 信息 去 排序 更 
正 建 议 是 更 重要 的 ， 在 字 处 理 拼写 检查 中 的 更 正 建议 ， 可 以 采用 下 拉 列 表 的 形式 。 另 外 ， 在 
查询 中 还 包含 着 大 量 的 语义 连贯 方面 的 错误 (run-on error) ， 其 中 词 的 边界 被 省 略 了 或 输入 错 
了 了。 下面 这 两 个 查询 “ultimatwarcade” 和 “mainscourcebank”， 是 语义 连贯 错误 的 例子 ， 其 
中 也 包含 了 单个 字符 的 错误 。 用 一 些 恰当 的 结构 ， 将 遗漏 了 一 些 像 空格 这 样 的 分 隔 符 可 以 看 
作 是 另 一 种 单个 字符 的 错误 。 

用 于 拼写 校正 的 噪声 通道 模型 (noisy channel model)， 是 一 种 能 够 处 理 排序 、 上 下 文 和 
语义 连贯 方面 错误 问题 的 通用 结构 。 这 个 模型 称 为 “噪声 通道 ”"， 是 因为 它 是 基于 香农 的 通信 
理论 (Shannon & Weaver，1963) ， 这 个 模型 可 以 通俗 地 描述 为 : 一 个 人 在 直觉 上 要 输出 〈 即 
写 出 ) 词 w， 是 根据 概率 分 布 P(w)， 然 后 这 人 要 去 写 出 词 w， 但 是 声音 通道 (大 体 上 相当 于 人 
的 大 脑 ) 使 得 这 个 人 以 概率 P(elw) 写 了 词 e。 

概率 P(w) 称 为 语言 模型 (language model) ， 用 来 获得 在 文本 中 词 的 出 现 频率 信息 (例如 ， 
在 一 个 文档 或 查询 中 ， 词 “lawyer” 出 现 的 概率 是 多 少 ? ) ， 以 及 上 下 文 信息 ， 如 在 已 知 一 
个 词 出 现 的 情况 下 ， 观 察 到 另 一 词 的 概率 (例如 ， 词 “lawyer” 在 词 “trial” 之 后 的 概率 )。 
我 们 将 在 第 7 章 中 更 详细 地 介绍 语言 模型 ， 目 前 我 们 可 以 将 这 个 模型 假定 为 描述 了 词 出 现 的 
概率 。 

概率 P(elw) 称 为 错误 模型 (error model) ， 表 示 了 不 同类 型 拼写 错误 的 频率 信息 。 例 如 ， 
与 词 w 的 编辑 距离 为 1 的 词 (或 者 字符 串 ) 概率 将 会 非常 高 。 词 之 间 的 编辑 距离 越 大 ， 概 率 值 
会 越 低 ， 但 是 同音 词 也 有 很 高 的 概率 。 需 要 注意 ， 错 误 模 型 不 仅 对 于 拼写 错误 的 词 估计 概率 ， 
而 且 对 于 拼写 正确 的 词 也 有 概率 值 (P(wlw))。 这 使 得 拼写 校正 程序 对 于 所 有 的 词 都 提出 更 正 
建议 ， 尽 管 最 初 的 一 些 词 是 拼写 正确 的 。 这 样 ， 如 果 具 有 最 高 概率 更 正 的 词 是 相同 的 词 ， 那 
么 就 不 对 用 户 提 出 更 正 建议 。 但 是 ， 如 果 上 下 文 〈( 即 语言 模型 ) 提示 了 另 一 个 词 可 能 更 恰当 ， 
那么 就 提出 这 个 更 正 建议 。 概 括 地 说 ， 这 就 是 拼写 检查 程序 对 于 查询 “golf curse” BEAK 
现 用 “course” 来 代替 “curse” 的 校正 建议 。 

如 何 来 估计 拼写 校正 的 概率 呢 ?” 某 个 人 写 的 词 是 e， 所 以 需要 计算 P(wle)， 这 是 在 看 到 这 
个 人 写 的 词 是 e 的 条 件 下 ， 而 正确 的 词 是 w 的 概率 。 如 果 只 是 想 要 找到 具有 最 大 概率 值 的 拼写 
更 正 ， 或 者 想 要 排序 这 些 拼 写 更 正 ， 就 可 以 用 P(elw) P(w) 来 计算 ， 这 是 错误 模型 概率 和 语言 
模型 概率 的 乘积 9。 

为 了 能 够 处 理 语义 连贯 方面 的 错误 和 上 下 文 ， 语 言 模型 除了 需要 单个 词 的 信息 人 外， 还 需 
要 获得 词 对 的 信息 。 一 个 词 的 语言 模型 概率 可 以 采用 这 个 词 在 文本 中 出 现 的 概率 和 它 接着 前 





O MHE (Bayes’s Rule) 是 用 基于 部 分 概率 来 表示 Plwle)， 第 7 章 中 将 讨论 这 个 定理 。 
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一 个 词 出 现 的 概率 混合 形式 (mixture) 来 计算 ,或 者 按照 下 面 的 公式 : 
AP(w)+(1—-A)P(wlw,) 

其 中 人 是 描述 两 个 概率 相对 重要 程度 的 参数 ，P(wlwn) 是 词 w 在 词 w 之 后 出 现 的 概率 。 例 如 对 
于 “fish tink” 的 拼写 错误 ， 对 于 那些 可 能 的 更 正 ， 我 们 将 错误 模型 概率 乘 以 它们 的 语言 模型 概 
率 。 词 “tank” 和 “think” 具 有 很 高 的 错误 模型 概率 ， 因 为 它们 只 需要 单个 字符 的 纠正 ， 并 且 
它们 都 是 很 常用 的 词 ， 这 两 个 词 也 有 相似 的 P(w)， 但 是 概率 P(tanklfish) 会 比 概 率 P(thinklfish) 高 
很 多 ， 这 样 ， 与 “think” 相 比 ，“tank” 更 可 能 是 校正 的 词 。 

语言 模型 中 需要 的 信息 从 什么 地 方 获 取 呢 ? 在 一 些 应 用 中 ， 对 文本 中 词 的 统计 的 最 好 资 
源 是 采用 搜索 到 的 文档 集合 。 在 网 络 搜索 中 (以 及 其 他 的 一 些 应 用 中 ) 会 有 查询 日 志 ， 其 中 
包含 了 大 量 提交 到 搜索 引擎 的 查询 。 既 然 我 们 的 任务 是 纠正 查询 的 拼写 错误 ， 查 询 日 志 可 能 
是 最 好 的 信息 资源 。 语 言 模 型 需要 记录 成 对 的 词 的 信息 ， 与 分 析 一 个 大 规模 的 文档 集合 中 所 
有 可 能 的 词 对 相 比 ， 分 析 查 询 日 志 也 会 减少 这 些 词 对 的 数量 。 除 了 这 些 资源 ， 对 于 这 个 应 用 ， 
如 果 有 一 个 可 信 的 字典 ， 也 应 该 使 用 这 样 的 字典 。 

在 错误 模型 中 P(elw) 概 率 的 估计 可 以 采用 相对 简单 的 方法 ， 也 可 以 用 非常 复杂 的 方法 。 简 
单 的 方法 是 假定 所 有 具有 相同 编辑 距离 的 错误 有 相等 的 概率 ， 并 且 仅 考虑 在 一 个 确定 的 编辑 
距离 以 内 的 字符 串 (通常 取 编辑 距离 为 1 或 2) 。 更 复杂 的 方法 是 对 于 一 些 确 定 类 型 的 错误 发 生 
可 能 性 进行 概率 估计 ， 例 如 ， 当 想 要 输入 “e” 时 输入 了 “a”， 这 些 概率 估计 是 通过 对 大 规模 
的 文本 集中 查找 一 些 正 确 拼写 和 不 正确 拼写 的 词 对 获得 的 。 

Cucerzan 和 Brill (2004) 描述 了 从 查询 日 志和 字典 中 的 信息 对 查询 进行 料 写 检 查 的 选 代 
过 程 ， 下 面 是 这 些 步骤 的 简要 撕 述 : 

1) 对 查询 进行 词素 切 分 (Tokenize ) 。 

2) 对 于 每 个 词素 (token) ， 通 过 编辑 距离 获得 可 替换 的 词 和 词 对 的 集合 。 其 中 ， 如 前 所 
述 对 每 种 确定 类 型 的 错误 ， 给 予 不 同 的 权重 来 计算 编辑 距离 。 在 查找 可 替换 词 的 数据 结构 中 ， 
包含 了 查询 日 志和 词典 中 的 词 与 词 对 。 

3) 然后 ， 使 用 噪声 通道 模型 选择 最 优 的 更 正 。 

4) 寻找 可 替换 词 的 过 程 与 发 现 最 优 更 正 的 过 程 不 断 重复 进行 ， 直 到 不 能 发 现 更 好 的 纠正 
Ak. 

通过 进行 多 次 途 代 ， 拼 写 检查 程序 可 能 会 产生 出 与 最 初 的 查询 相差 很 远 ( 指 编辑 距离 ) 
的 更 正 建议 。 例 如 ， 对 于 查询 “miniture golfcurse” ， 拼 写 校正 程序 将 经 历 下 面 的 迭代 过 程 ; 

miniture golfcurses 


miniature golfcourses 
miniature golf courses 


这 种 拼写 校正 程序 的 相关 实验 结果 显示 ， 从 查询 日 志 中 得 到 的 语言 模型 对 于 校正 准确 率 
来 说 是 最 重要 的 部 分 ， 另 外 ， 在 语言 模型 中 ， 以 词 对 形式 使 用 的 上 下 文 信息 也 是 很 关键 的 。 
在 校正 过 程 中 ， 即 使 仅 有 两 次 迭代 ， 也 会 产生 很 大 的 不 同 。 错 误 模型 不 是 很 重要 的 ， 使 用 一 
个 对 所 有 错误 都 具有 相同 概率 的 简单 模型 与 更 复杂 的 模型 几乎 同样 有 效 。 其 他 的 一 些 研 究 表 
明 ， 当 不 是 根据 查询 日 志 ， 而 是 基于 文档 集合 得 到 语言 模型 时 ， 错 误 模型 会 更 加 重要 。 

实现 查询 拼写 校正 程序 的 最 好 方法 ， 显 然 需要 依靠 一 些 可 用 的 数据 。 如 果 有 大 量 的 查询 
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日 志 信息 ， 就 可 以 将 它们 使 用 到 程序 中 。 否 则 ， 在 这 些 应 用 中 的 文档 集合 以 及 在 某 些 情况 下 
一 个 可 信 的 字典 ， 也 都 是 可 用 的 资源 。 在 一 些 常 规 的 拼写 更 正 程序 中 ， 可 以 使 用 构建 具体 应 
用 词典 的 方法 ， 如 Aspell。 即 使 没有 可 用 的 查询 日 志 数据 ， 基 于 噪声 通道 模型 的 拼写 校正 程序 
也 会 非常 有 效 并 更 具 适 应 性 。 

6.2.3 查询 扩展 


在 搜索 引擎 发 展 的 早期 阶段 ， 从 20 世 纪 60 年 代 开 始 ， 搜 索引 擎 系统 用 户 的 一 个 基本 工具 
是 在 线 叙 词 表 (thesaurus)。 氢 词 表 中 描述 了 在 文档 集合 中 被 索引 的 词汇 ， 以 及 同义词 、 相 关 
词 或 短语 的 信息 ， 它 是 非常 重要 的 ， 因 为 文档 集 通常 根据 叙 词 表 中 的 词 用 人 工 进行 了 索引 
(标记 ，tagged) 9。 在 叙 词 表 中 词 项 经 过 了 仔细 表 6-1 医学 主题 词 (MeSH) SARP 


的 选择 并 进行 了 质量 控制 ， 所 以 作词 表 也 称 为 受 控 “Neck Pain” 的 部 分 词 条 

词 表 (controlled vocabulary), MMS IKR, MAA MeSH Heading Neck Pain 

可 以 决定 要 在 查询 中 用 到 哪些 词 或 短语 , 并 且 能 够 TceNamber CI0597617576 SS 
用 同义词 和 相关 词 来 扩展 最 初 的 查询 。 Tree Number C23.888.592.612.553 


表 6-1 展 示 了 在 医学 主题 词 (MeSH) 叙 词 表 中 Tree Number C23.888.646.501 
的 一 个 词 条 的 相关 部 分 。 这 个 叙 词 表 用 在 国家 图 书 Entry Term Cervical Pain 
e « » B Entry Term Neckache 
馆 中 医药 搜索 上 ° 表 中 Tree Number fe 纺 Entry Term Antcrior Cervical Pain 


号 形式 指 出 在 广义 和 狭义 的 词 项 分 类 树 上 ’ 什么 地 Entry Term Anterior Neck Pain 


方 能 够 找到 这 个 词 项 。“Entry term” 是 一 个 同义词 。 Enty Term cervicalgia 
> ` ses Entry Term Cervicodynia 

或 相关 的 短语 。 

或 $ Entry Term Neck Ache 


尽管 在 当前 的 搜索 应 用 中 ， 很 少 直接 使 用 叙 词 Entry Term Posterior Cervical Pain 
R, 但 是 在 自动 和 半自动 (semi-automatic) 形式 Entry Term | Posterior Neck Pain 
的 查询 扩展 中 ， 也 用 到 了 一 些 相关 的 技术 。 半 自动 
技术 需要 用 户 与 系统 进行 交互 ， 例 如 ， 用 户 可 以 在 系统 提供 的 扩展 词 列表 中 选择 扩展 词 项 ， 
网 络 搜索 引擎 将 用 户 的 初始 查询 用 一 个 或 多 个 词 去 扩展 ， 或 者 替换 查询 中 的 一 些 词 ， 然 后 将 
修改 后 的 查询 建议 提交 给 用 户 。 

查询 扩展 技术 通常 是 基于 对 指定 的 文档 集中 词 或 词 项 共 现 的 分 析 ， 文 档 集 可 以 采用 全 部 
的 文档 集合 、 大 规模 的 查询 集合 ， 或 者 在 排序 结果 中 最 高 排序 的 文档 集 。 从 这 个 角度 上 ， 对 
查询 的 词 二 提取 也 可 以 看 作 是 一 种 查询 扩展 技术 ， 只 是 扩展 的 词 项 限于 对 词 的 变形 (word 
variants)。 另 外 ， 采 用 常规 叙 词 表 (例如 Wordnet® ) 的 自动 扩展 技术 ,往往 也 不 具备 很 好 的 
效果 。 

有 效 进 行 查询 扩展 的 关键 ， 是 要 选择 出 适合 查询 上 下 文 或 主题 的 词汇 。 例 如 ， “aquarium” 
可 以 是 对 查询 “tropical fish tanks” 中 “tank” 的 一 个 很 好 的 扩展 ， 但 是 对 于 查询 “armor for 
tanks” 并 不 适合 。 一 个 常规 叙 词 表 中 列 出 了 不 同上 下 文 的 相关 词 项 ， 所 以 很 难 自动 地 使 用 它 。 
我 们 将 叙述 处 理 这 个 问题 的 不 同方 法 ， 如 用 查询 中 的 全 部 词 去 找到 相关 的 词 ， 而 不 是 分 别 扩 


O 在 信息 检索 中 ，indexing 除了 指 创建 用 于 搜索 文档 的 索引 的 过 程 ， 而 且 还 经 常 指 用 一 个 索引 词 项 代表 一 个 
文档 的 过 程 。 最 近 ， 人 工 创建 索引 的 过 程 称 为 标记 (tagging), 特别 在 社会 搜索 应 用 的 上 下 文中 ( 见 第 10 章 )。 

© http:/www.nlm.nih.gov/imesh/meshhome.html. 

© http://wordnet.princeton.edu/. 
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展 每 一 个 词 。 一 个 众所周知 的 扩展 技术 称 为 伪 相 关 反 馈 (pseudo-relevance feedback) ， 将 在 下 
一 节 与 基于 用 户 对 检索 结果 中 相关 文档 的 反馈 技术 一 起 进行 论述 。 
衡量 词 项 相关 性 是 一 些 查询 扩展 方法 中 的 重要 部 分 ， 目 前 已 经 提出 了 一 些 衡量 方法 ， 在 
6.2.1 节 中 提 到 的 戴 斯 系数 (Dice’s coefficient) 是 其 中 的 一 种 方法 。 这 个 衡量 方法 的 公式 如 下 : 
2 pop "May 
na tA, Mna tp 
其 中 指 公式 是 排序 相等 的 (产生 了 相同 的 词 项 排序 ) 9。 
另外 一 种 度量 方法 是 互信 息 (mutual information) ， 这 种 方法 被 用 在 一 些 词 搭配 (collocation) 
的 研究 中 。 对 于 两 个 词 (或 词 项 ) a 和 4b， 互信 息 用 下 面 公式 定义 : 
' P(a,b) 
P(a)P(b) 





log 


互信 息 用 来 衡量 词 之 间 能 够 相互 独立 出 现 的 程度 。P(a) 是 在 给 定 大 小 的 文本 窗口 中 词 e 出 现 
的 概率 ，P(5) 是 词 5 在 文本 窗口 中 出 现 的 概率 ，P(a, 5) 是 词 qa 和 词 5 出 现在 相同 的 文本 窗口 中 的 
概率 。 如 果 两 个 词 的 出 现 是 独立 的 ， 那 么 就 有 P(a, b)=P(a)P(b)， 互 信息 为 0"， 例 如， 我 们 可 能 
希望 两 个 词 “fishing” 和 “automobile” 将 互相 独立 地 出 现 。 如 果 两 个 词 趋向 于 共 现 ， 如 
“fishing” 和 “boat”，P(a,b) 将 大 于 Pl(a)P(b)， 互 信息 将 会 增 大 。 

为 了 计算 互信 息 ， 我 们 采用 下 面 简单 的 归 一 化 频率 形式 来 估计 概率 : Pla)=n,/N, P(b)= 
n/N, Pla, b)=nss/N， 其 中 是 包含 词 a 的 窗口 (文档) 数量 ，n, 是 包含 词 b 的 窗口 (文档) 数 
量 ，nos 是 包含 词 a 和 词 5 的 窗口 数量 ,:N 是 集合 中 的 文本 窗口 数量 ， 这 样 就 有 下 面 的 计算 公式 : 
Plab) loN. fe rs Nop 


P(a)P(b) E aom non, 


a 





log 


这 种 方法 的 一 个 问题 是 ， 它 更 倾向 于 具有 低频 率 的 词 。 例 如 ， 两 个 词 都 具有 频率 10 (BD 
no=n6=10) ， 它 们 共 现 频率 为 各 自 出 现 频率 的 一 半 (ns=5)， 根 据 上 面 公 式 计算 的 对 于 这 两 个 
词 的 关联 度 为 5 x 10“。 但 是 对 于 两 个 词 的 频率 为 1 000， 共 现 频率 为 半数 时 (ms=500) ， 则 这 
两 个 词 的 关联 度 为 5 x 10“*。 期 望 互 信息 度量 方法 (expected mutual information measure) 根 
据 概率 P(e, 5) 对 互信 息 进行 加 权 处 理 ， 以 解决 这 个 问题 。 尽 管 在 通常 情况 下 ， 期 望 互 信息 要 
基于 所 有 共 现 和 非 共 现 的 词 进行 计算 ,但 是 我 们 主要 关注 两 个 词 共 现 的 情况 ， 如 下 面 公式 : 


P(a,b) nyp Nap Nok Nob 
P(a,b)-\ =-—=log| N:—4 = :log| N: — 
(a,b)-log P(a)P(b) N oal n,n, Mab OB ny My 











我 们 还 采用 与 上 面相 同 的 例子 ， 假 设 N=10 ， 这 样 对 于 低频 词 计算 的 关联 度 为 23.5， 而 对 
于 高 频 词 计 算 的 关联 度 为 1350， 明 显 更 倾向 于 后 者 。 事 实 上 ， 偏 向 于 高 频 词 是 这 种 方法 的 一 
个 问题 。 

在 一 些 应 用 中 ， 另 一 种 常用 的 关联 度量 方法 是 皮尔 森 X 检验 方法 (pearson’s Chi- 
squared(x”) measure)。 这 个 方法 计算 了 两 个 词 共 现 的 观测 值 与 这 两 个 词 在 相互 独立 条 件 下 共 

日 ”更 规范 地 ， 当 根据 两 个 函数 的 育 数 值 对 词 项 进行 排序 后 ， 获 得 了 具有 相同 顺序 的 词 项 ， 则 称 这 两 个 函数 是 


排序 相等 的 。 排 序 保持 操作 包括 单调 变换 (如 log) ， 缩 放 〈 乘 以 一 个 常数 ) ， 以 及 平移 〈 增 加 一 个 常数 ) 。 
O ”更 准确 地 说 ， 这 是 指点 (pointwise) 互信 息 。 
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现 的 期 望 值 的 比值 ， 并 根据 期 望 值 对 这 个 比值 进行 归 一 化 处 理 ， 得 到 |: 


2 


f n, Ny 1 
(Pa -NN N my m (” ‘ab ar Ny” n) 
N- „la. m n,n, 

N N 


N- Pla): P(b) = N- ar .也 是 两 个 词 相互 独立 情况 下 共 现 的 期 望 值 。 与 期 望 互信 息 度量 方法 类 似 ， 


x 检验 通常 根据 所 有 词 共 现 和 非 共 现 的 情况 进行 计算 ,但 是 我 们 只 着 重 考 虑 两 个 词 共 现 的 情况 。 
事实 上 ， 当 N 值 很 大 的 时 候 ， 这 种 限制 形式 的 x 检验 与 完全 形式 的 Xx 检验 产生 了 相同 的 词 项 排 
序 结果 。 另 外 ， 可 以 注意 到 X 检验 方法 与 互信 息 度量 方法 非常 相似 ， 并 且 都 倾向 于 低频 词 。 

表 6-2 概 括 了 以 上 我 们 所 讨论 的 衡量 关联 度 的 方法 。 为 了 展示 它们 实际 的 应 用 ， 我 们 在 
TREC 新 闻 集 上 采用 这 些 方法 计算 了 与 查询 “tropical fish” 相 关 的 排序 靠 前 的 词 项 。 


表 6-2 词 项 关联 度量 方法 

















度量 公式 
互信 息 (MIM) 
期 望 互信 息 (EMIM) Pas os(N ' 7) 
na M, 
戴 斯 系数 (Dice) oe 


表 6-3 中 是 在 不 限制 窗口 大 小 情况 下 与 词 “tropical” 有 很 高 关联 度 的 词 (换言之 ， 在 文档 
中 词 共 现 的 数量 ) ， 其 中 有 两 个 明显 的 特点 需要 注意 ， 第 一 个 是 X“ 检 验 的 排序 与 MIM 方 法 的 排 
序 是 相同 的 ， 第 二 个 是 MIM 和 X“ 检 验 如 预期 的 那样 ， 更 倾向 于 低频 词 。 有 些 词 是 不 合理 的 
(例如 “itto” 是 指 国际 热带 木材 组 织 , “xishuangbanna” 是 中 国 热带 植物 公园 ) ， 它 们 过 于 具 
体 ， 不 能 用 在 查询 扩展 中 。 在 EMIM 和 Dice 方 法 中 ， 排 在 前 面 的 词 是 一 些 常 规 词 ， 但 在 EMIM 
方法 中 ， 有 时 出 现 的 词 过 于 “常规 ”( 例 如 ,，“most” )。 

表 6-4 中 是 对 于 “fish” 获 得 的 排序 靠 前 的 一 些 词 。 因 为 这 是 一 个 高 频 词 ， 尽 管 MIM 和 x? 
检验 方法 仍然 都 倾向 于 低频 词 ， 但 获得 的 排序 不 再 相同 。 由 EMIM 和 Dice 方 法 获得 的 排序 在 前 
的 词 非常 相似 ， 但 排序 不 同 。 

为 了 显示 改变 窗口 大 小 的 影响 ， 表 6-5 给 出 了 用 5 个 词 大 小 的 窗口 获得 的 排序 靠 前 的 词 。 
尽管 MIM 和 x? 检验 方法 仍 能 找到 一 些 低频 词 ， 但 是 窗口 尺寸 变 小 影响 了 排序 结果 。EMIM 方 法 
获得 的 词 有 了 些 改善 ， 变 得 更 具体 了 。 总 体 上 ， 在 一 定 的 窗口 大 小 范围 内 ， 简 单 的 戴 斯 系数 
方法 看 来 是 最 稳定 和 可 靠 的 。 

但 是 在 这 些 表 格 中 ， 即 使 最 好 的 排序 也 几乎 没有 包含 能 够 用 作 扩 展 “tropical fish” 的 词 ， 
表格 中 的 这 些 词 往往 与 一 些 具体 的 上 下 文 相 关 ， 例如， 热带 雨林 和 水 果 或 者 禁 渔 。 一 种 解决 
这 个 问题 的 方法 是 ， 找 到 与 短语 “tropical fish” 密 切 相 关 的 词汇 。 采 用 戴 斯 系数 方法 ， 使 用 
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前 面 所 述 的 TREC 文 档 集 ， 得 到 下 面前 10 个 排序 的 词 ， 
表 6-3 在 TREC 新 闻 和 集中 与 “tropicat” 最 相关 联 的 词 (在 文档 上 衡量 词 共 现 的 数量 ) 








MIM EMIM x? Dice 
trmm forest trmm forest 
itto tree itto exotic 
ortuno rain ortuno timber 
kuroshio island kuroshio rain 
ivirgarzama like ivirgarzama banana 
biofunction fish biofunction deforestation 
kapiolani most kapiolani plantation 
bstilla water bstilla coconut 
almagreb fruit almagreb jungle 
jackfruit area jackfruit tree 
adeo world adeo rainforest 
xishuangbanna america xishuangbanna palm 
frangipani some frangipani hardwood 
yuca live yuca greenhouse 
anthurium plant anthurium logging 





goldfish, reptile, aquarium, coral, frog, exotic, stripe, regent, pet, wet 
显然 ， 这 个 方法 找到 了 更 好 地 与 上 下 文 相关 的 词 。 可 是 为 了 使 用 这 个 方法 ， 我 们 要 对 可 
用 于 查询 中 的 每 组 词 分 析 其 关联 性 ， 这 显然 是 不 现实 的 ， 但 是 可 以 采用 一 些 其 他 的 方法 来 完 


成 这 件 事情 。 


表 6-4 ”在 TREC 新 闻 集中 与 “fish” 最 相关 联 的 词 〈 在 文档 上 衡量 共 现 的 数量 ) 





MIM 


zoologico 
zapanta 
wrint 
wpfmc 
weighout 
waterdog 
longfin 
veracruzana 
ungutt 
ulocentra 
needlefish 
tunaboat 
tsolwana 
olivacea 


motoroller 


EMIM 


water 
species 
wildlife 
fishery 
sea 
fisherman 
boat 
area 
habitat 
vessel 
marine 
land 
rivet 
food 


endanger 


2 


x 


arlsq 
happyman 
outerlimit 
sportk 
lingcod 
longfin 
bontadelli 
sportfisher 
billfish 
needlefish 
damaliscu 
bontebok 
taucher 


orangemouth 


Dice 
species 
wildlife 
fishery 
water 
fisherman 
boat 
sea 
habitat 
vessel 
marine 
endanger 
conservation 
river 
catch 


island 


sheepshead 


一 种 方法 是 对 查询 检索 出 的 文档 进行 词 共 现 的 分 析 ， 这 是 伪 相 关 反 馈 的 基础 ， 我 们 将 在 
下 一 节 论 述 这 个 方法 。 另 一 种 方法 是 根据 与 指定 词 共 现 的 其 他 词 的 分 析 ， 对 文档 集中 的 每 个 
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词 进行 索引 ， 创 建 出 表示 这 个 词 的 一 个 虚拟 文档 8 。 例 如 ， 下 面 的 例子 是 3S 个 与 “aquarium” 
最 密切 相关 的 词 (采用 戴 斯 系数 计算 ) : 


zoology, cranmore, jouett, zoo, goldfish, fish, cannery, urchin, reptile, coral, animal, 
mollusk, marine, underwater, plankton, mussel, oceanography, mammal, species, 
exhibit, swim, biologist, cabrillo, saltwater, creature, reef, whale, oceanic, scuba, kelp, 
invertebrate, park, crustacean, wild, tropical. 


表 6-5 在 TREC 新 闻 集 中 与 “fish” 最 相关 联 的 词 〈 在 5 个 词 的 窗口 上 衡量 共 现 的 数量 ) 


2 





MIM EMIM x. Dice 
zapanta wildlife gefilte wildlife 
plar vessel mbmo vessel 
mbmo boat zapanta boat 
gefilte fishery plar fishery 
hapc Species hape species 
odfw tuna odfw catch 
southpoint trout southpoint water 
anadromous fisherman anadromous sea 
taiffe salmon taiffe meat 
mollie catch mollie interior 
frampton nmf frampton fisherman 
idfg trawl idfg game 
billingsgate halibut billingsgate salmon 
sealord meat sealord tuna 
longline shellfish longline caught 


这 些 词 将 构成 表示 “aquarium” 文 档 的 索引 项 。 为 了 找到 一 个 查询 的 扩展 词 ， 这 些 虚拟 
文档 按照 与 正规 文档 相同 的 形式 排序 ， 这 样 得 到 对 应 于 每 个 词 的 排序 。 在 这 个 例子 中 ， 
“aquarium” 这 个 文档 以 很 高 的 权重 包含 词 “tropical” 和 “fish ， 所 以 它 可 能 对 于 查询 
“tropical fish” 会 有 更 高 的 排序 ， 这 意味 着 “aquarium” 将 是 具有 更 高 排序 的 扩展 词 项 。 另 外 ， 
对 于 “jungle” 这 个 词 的 文档 ， 尽 管 以 很 高 的 权重 包含 “tropical”， 但 是 不 太 可 能 包含 “fish ， 
这 个 文档 以 及 对 应 词 的 排序 将 远 低 于 “aquarium 。 

分 析 文 档 集 的 各 种 技术 都 要 面 对 可 计算 性 和 准确 性 的 问题 ， 因 为 在 搜索 应 用 中 的 文档 集 
往往 是 规模 庞大 并 且 文 档 质 量 参差 不 同 。 正 如 本 节 开 始 部 分 提 到 的 ， 不 是 对 整个 文档 集 而 是 
对 搜索 结果 集合 或 大 规模 的 查询 日 志 进 行 分 析 。 最 近 的 一 些 研 究 经 验 指出 ， 大 规模 的 查询 日 
志 或 许 是 最 好 的 查询 扩展 资源 。 在 这 些 查询 日 志 中 包含 的 是 一 些 短文 本 ， 这 上 比 包 含 全 部 文本 
的 文档 更 容易 进行 分 析 ， 其 中 也 包含 了 一 些 其 他 数据 ， 如 在 检索 过 程 中 被 用 户 点 击 的 文档 的 
信息 〈 即 点 击 流 数 据 (clickthrough) )。 

为 了 展示 如 何 使 用 查询 日 志 进 行 查询 扩展 ， 下 面 列 出 与 包含 “tropical fish” 的 查询 相关 
的 10 个 最 高 频率 的 词 ， 这 些 查 询 是 从 一 个 流行 的 网 络 搜索 引擎 上 最 近 的 查询 日 志 中 获得 的 。 


stores, pictures, live, sale, types, clipart, blue, freshwater, aquarium, supplies 





O ”有 时 称 为 上 下 文 向 量 (context vector), 
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这 些 词 指 出 了 人 们 提出 与 热带 鱼 相关 查询 的 类 型 (销售 、 供 应 、 图 片 )， 其 中 大 部 分 非常 
适合 用 作 查 询 扩 展 。 在 当前 的 一 些 系统 中 ， 通 常 是 以 完整 查询 的 形式 给 出 查询 扩展 的 建议 ， 
而 不 是 以 单个 词 的 形式 ， 在 这 种 情况 下 ， 查 询 日 志 对 于 生成 最 好 的 提议 将 是 非常 有 用 的 。 例 
gn, “tropical fish supplies” 是 比 “supplies tropical fish” 更 常见 的 查询 ， 也 是 对 查询 扩展 更 
好 的 建议 。 

从 这 个 角度 上 看 ， 查 询 扩展 能 够 作为 发 现 相 似 查询 的 问题 ， 而 不 是 扩展 词 项 的 问题 。 相 
似 的 查询 不 总 是 包含 相同 的 词 。 例 如 ， 查 询 “pet fish sales” 可 以 作为 对 “tropical fish” 的 一 
个 合理 的 候选 扩展 ， 尽 管 它 没有 包含 词 “tropical” 。 长 期 以 来 ， 人 们 已 经 认识 到 ， 语 义 相似 的 
查询 不 仅 可 以 根据 词 ， 而 且 可 以 根据 它们 具有 相同 内 容 的 相关 文档 将 其 组 合 起 来 。 点 击 流 数 
据 非 常 相似 于 这 样 的 相关 数据 ， 最 近 的 研究 表明 ， 能 够 根据 点 击 流 数据 的 相似 程度 将 查询 很 
好 地 进行 组 合 或 聚 类 。 这 意味 着 每 个 查询 都 可 以 用 这 个 查询 的 点 击 网 页 集合 来 表示 ， 并 且 查 
询 之 间 的 相似 度 可 以 采用 一 些 方法 来 计算 ， 如 采用 戴 斯 系数 的 方法 ， 其 中 心 是 两 个 查询 具有 
的 相同 的 点 击 网 页 数量 ，n。、 是 每 个 查询 的 点 击 网 页 数量 。 

总 之 ,目前 已 经 有 很 多 自动 或 半自动 的 查询 扩展 方法 ， 在 一 些 搜 索 应 用 上 ， 上 默认 的 方法 
是 向 用 户 提出 可 选择 的 查询 建议 。 有 些 计算 词 项 关联 度 的 方法 要 优 于 其 他 方法 ， 基 于 单个 词 
的 词 项 关联 度 方法 没有 产生 很 好 的 扩展 词 项 ， 因 为 它 没有 使 用 查询 的 上 下 文 信息 。 使 用 查询 
上 下 文 最 好 的 方法 是 ， 使 用 查询 日 志 去 分 析 词 之 间 的 关联 以 及 根据 点 击 流 数据 去 找到 相似 的 
查询 。 如 果 设 有 可 用 的 查询 日 志 ， 最 好 的 替代 方法 是 采用 擅 相 关 反 馈 ， 这 将 在 下 一 节 中 介绍 。 
在 基于 文档 集合 构建 自动 叙 词 表 的 方法 中 ， 最 优 的 方法 是 为 每 个 词 创建 虚拟 文档 ， 并 且 在 扩 
展 每 个 查询 时 对 它们 进行 排序 。 

6.2.4 相关 反馈 

相关 反馈 是 具有 很 长 历史 的 查询 扩展 和 查询 提炼 技术 。 最 初 是 在 20 世 纪 60 年 代 提 出 的 ， 
它 是 依靠 系统 与 用 户 的 交互 过 程 ， 识 别 出 在 用 户 初始 查询 的 排序 文档 中 的 相关 文档 。 尽 管 在 
上 布 中 也 讨论 了 一 些 半自动 技术 ,但 是 在 相关 反馈 中 ， 不 是 让 用 户 从 词 项 列表 中 或 可 替换 的 
查询 中 进行 选择 ， 而 是 让 用 户 指 出 哪些 文档 是 感 兴趣 的 ( 即 相 关 的 )， 以 及 哪些 是 完全 高 题 的 
( 即 不 相关 的 )。 根 据 这 些 信息 ， 系 统 通过 增加 词 项 或 对 原始 词 项 重新 分 配 权 重 ， 自 动 地 改写 
查询 ， 并 用 改写 的 查询 生成 新 的 文档 排序 。 

这 个 处 理 过 程 是 在 信息 检索 中 应 用 机 器 学 习 (machine learning) 方法 的 一 个 简单 例子 ， 
其 中 通过 训练 数据 (training data) (识别 相关 和 不 相关 的 文档 ) 改善 系统 性 能 ， 修 改 查 询 事实 
上 等 同 于 学 习 一 个 分 类 器 ， 通 过 它 可 以 区 分 相关 和 不 相关 的 文档 。 我 们 将 在 第 7 章 和 第 9 章 进 
一 步 讨论 分 类 和 分 类 技术 。 可 是 与 其 他 的 机 器 学 习 应 用 相 比 ， 相 关 反 馈 产 生 的 训练 数据 的 数 
量 是 非常 有 限 的 ， 因 为 它 只 能 依靠 用 户 在 当前 查询 期 间 的 输入 内 容 ， 而 不 能 使 用 像 点 击 流 这 
样 的 历史 数据 。 

调整 查询 的 具体 方法 取决 于 所 用 的 检索 模型 。 在 下 一 章 中 ， 我 们 将 介绍 在 向 量 空间 模型 
和 概率 模型 中 是 如 何 使 用 相关 反馈 技术 的 。 但 通常 的 做 法 是 ， 当 一 些 词 在 相关 文档 中 出 现 的 
频率 比 不 相关 文档 或 整个 文档 更 高 时 ， 就 将 这 些 词 增加 到 查询 中 ， 或 者 提高 它们 的 权重 。 在 
伪 相 关 反 馈 (pseudo-relevance feedback) 中 ， 也 是 采用 了 相同 的 思想 ， 但 不 是 让 用 户 自己 去 
识别 相关 的 文档 ， 而 是 系统 将 排序 靠 前 的 文档 假设 是 相关 的 。 在 这 些 文档 中 ， 频 繁 出 现 的 词 
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被 用 作 扩展 用 户 的 初始 查询 ， 上 具体 的 做 法 也 要 取决 于 所 采用 的 检索 模型 。 在 下 一 章 中 ， 我 们 
将 描述 采用 语言 模型 检索 中 的 伪 相 关 反 馈 。 由 伪 相 关 反 馈 产 生 的 扩展 词 项 是 根据 整个 查询 的 ， 
因为 它们 是 在 这 个 查询 的 排序 靠 前 的 文档 中 抽取 出 来 的 ， 但 是 扩展 的 质量 是 由 排序 靠 前 的 文 
档 有 多 少 是 实际 相关 而 决定 的 。 

我 们 通过 一 个 例子 来 说 明 这 个 方法 是 如 何 实现 的 ， 图 6-1 是 一 个 通用 的 搜索 引擎 对 查询 
“tropical fish” 的 搜索 排序 结果 。 


| ans Tropical Fish 


A freshwater aquarium page covering all aspects of the tropical fish hobby. ... to 
Badman's Tropical Fish. ... world of aquariofogy with Badman’s Tropical Fish. ... 


2. Tropical Fish 
Notes on a few species. and a gallery of photos of African cichlids. 
3. The Tropical Tank Homepage - Tropical Fish and Aquariums 


Info on tropical fish and tropical aquariums, large fish species index with ... Here you 
will find lots of information on Tropical Fish and Aquariums. ... 


4. Tropical Fish Centre 


Offers a range of aquarium products, advice on choosing species, feeding, and health 
Care, and a discussion board. 


5. Tropical fish - Wikipedia free encyclopedia 
Tropical fish are popular aquarium fish , due to their often bright coloration. ... Practical 
Fishkeeping * Tropical Fish Hobbyist » Koi. Aquarium related companies: ... 

6. Tropical Fish Find 


Home page for Tropical Fish Internet Directory ... stores, forums, clubs, fish facts, 
tropical fish compatibility and aquarium ... 


7. Breeding tropical fish 





... intrested in keeping and/or breeding Tropical, Marina, Pond and Coldwater fish. ... 
Breeding Tropical Fish ... breeding tropical, marine, coldwater & pond fish. ... 


8. Fishkore 


Includes tropical freshwater aquarium how-to guides, FAQs, fish profiles, articles, and 
forums. 


9. Cathy's Tropical Fish Keeping 
Information on setting up and maintaining a successful freshwater aquarium. 
10. Tropical Fish Place 


Tropical Fish information for your freshwater fish tank ... great amount of information 
about a great hobby, a freshwater tropical fish tank. ... 








图 6-1 查询 “tropical fish” 的 前 10 个 搜索 结果 


为 了 使 用 伪 相 关 反 馈 扩 展 这 个 查询 ， 我 们 可 以 假设 前 10 个 文档 都 是 相关 的 。 通 过 对 这 些 
文档 进行 全 文 分 析 ， 可 以 得 到 其 中 出 现 最 频繁 的 词 项 以 及 相应 的 频率 : 


a (926), td (535), href (495), http (357), width (345), com (343), nbsp 
(316), www (260), tr (239), htm (233), class (225), jpg (221) 


显然 ， 这 些 词 不 适合 用 作 扩 展 的 词 项 ， 因 为 它们 是 整个 文档 集合 中 一 些 常见 的 停 用 词 和 
HTML 的 字符 串 ， 也 就 是 说 ， 它 们 不 能 表示 出 这 些 文档 所 包含 的 主题 。 改 进 这 个 过 程 的 一 个 
简单 方法 是 ， 在 文档 的 页 面 摘要 中 对 词 计 数 ， 并 且 去 除 停 用 词 。 这 样 的 分 析 方 法 得 到 了 下 面 
这 些 高 频 词 : 

tropical (26), fish (28), aquarium (8), freshwater (5), breeding (4), 


information (3), species (3), tank «(2), Badman’s (2), page (2), hobby (2), 
forums (2) 
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这 些 词 是 用 作 查 询 扩展 的 更 好 的 候选 词 项 ， 并 且 设 有 出 现 分 别 扩展 “tropical” 和 “fish” 
时 缺少 上 下 文 信息 的 问题 。 但 是 如 果 用 户 是 对 饲养 热带 鱼 感 兴趣 ， 就 可 以 用 真正 的 相关 反馈 
去 改善 扩展 的 词 项 ， 排 序 在 第 7 位 的 文档 被 明确 地 标记 为 相关 文档 ， 这 种 情况 下 出 现 最 频繁 的 
词 是 : 

breeding (4), fish (4), tropical (4), marine (2), pond (2), coldwater (2), 

keeping (1), interested (1) 


用 这 些 词 的 主要 作用 是 增加 扩展 词 项 “breeding” 的 权重 。 如 前 所 述 ， 具 体 的 加 权 方 法 取 
决 于 采用 的 检索 模型 。 

在 一 些 研究 文献 中 ， 已 经 对 相关 反馈 和 伪 相 关 反 馈 进 行 了 广泛 的 探讨 ， 并 且 显 示 了 它们 
是 改善 排序 结果 的 有 效 方法 。 但 是 在 实际 的 检索 应 用 中 ， 却 很 少 被 使 用 它们 ， 对 于 人 擅 相 关 反 
馈 ; 显然 主要 是 由 于 无 法 预料 自动 处 理 过 程 的 结果 。 如 果 最 初 的 排序 中 没有 包含 相关 的 文档 ， 
通过 伪 相 关 反 馈 获 得 的 扩展 词 项 不 可 能 有 什么 帮助 ， 而 且 对 于 某 些 查 询 ， 可 能 会 产生 更 严重 
的 错误 排序 结果 。 为 了 避免 这 样 的 情况 ， 候 选 的 扩展 词 项 可 以 展示 给 用 户 ,但 是 一 些 研究 显 
示 了 这 种 做 法 也 不 是 特别 有 效 。 根 据 对 查询 日 志 的 分 析 ， 提 议 可 选择 的 查询 是 一 种 更 为 可 靠 
的 半自动 查询 扩展 替代 方法 。 

另外 ， 相 关 反 馈 也 可 以 用 在 其 他 应 用 中 ， 如 文档 过 滤 。 过 滤 涉 及 追溯 一 个 人 随 着 时 间 而 
改变 的 兴趣 ， 并 且 在 有 些 应 用 中 ， 人 允许 人 们 使 用 相关 反馈 去 调整 他 们 的 个 人 描述 文件 。 另 一 
个 相关 反馈 的 简单 应 用 是 ， 在 一 些 早 期 的 搜索 引擎 中 所 采用 的 “more like this” 功 能 ， 这 个 功 
能 允许 用 户 点 击 在 搜索 结果 列表 中 与 文档 相关 联 的 一 个 链接 ， 这 样 可 以 产生 与 点 击 文档 相似 
的 另 一 个 文档 排序 列表 。 这 是 一 个 相关 反馈 过 程 ， 但 是 对 于 训练 数据 仅 限于 一 个 相关 文档 。 

尽管 这 些 应 用 已 经 获得 了 一 些 成 功 ， 但 是 在 目前 更 为 常用 的 方法 是 ， 要 求 用 户 从 一 系列 
查询 提议 中 去 选择 查询 。 当 然 不 能 保证 这 些 提 议 的 查询 中 就 会 包含 用 户 想 要 查找 的 内 容 ， 并 
且 在 这 个 意义 上 ， 相 关 反 馈 支持 了 更 精确 的 查询 改写 。 但 是 使 用 相关 反馈 隐 含 着 一 个 内 在 的 
假设 : 用 户 需要 寻找 的 是 一 些 相关 文档 ， 而 不 是 在 初始 排序 结果 中 的 一 个 或 两 个 文档 。 对 于 
有 些 查询 ， 例 如 寻找 一 个 主题 的 背景 信息 ， 这 可 能 是 正确 的 ， 但 是 对 于 在 互联 网 环境 下 的 一 
些 查询 ， 用 户 将 会 更 满意 初始 的 排序 结果 ， 而 不 需要 相关 反馈 。 当 初始 查询 失败 时 ， 给 出 的 
查询 建议 列表 将 会 帮助 用 户 重新 提交 查询 ， 而 对 于 这 种 情况 ， 相 关 反 馈 不 可 能 有 什么 帮助 。 
6.2.5 上 下 文 和 个 性 化 

当前 搜索 引擎 的 一 个 特点 是 ， 对 于 相同 的 查询 给 出 相同 的 检索 结果 ， 而 不 管 是 谁 提交 的 
查询 ， 为 什么 提交 查询 ， 在 什么 地 方 提交 的 查询 ， 在 一 个 对 话 期 间 中 还 提交 什么 其 他 的 查询 。 
所 有 这 些 事项 就 是 要 选择 可 以 用 哪些 词 来 描述 当前 的 查询 。 另 外 还 有 一 些 统称 为 查询 上 下 文 
的 因素 ， 也 会 影响 检索 出 文档 的 相关 性 ， 并 能 够 对 排序 算法 产生 很 大 影响 。 但 是 已 经 证 实 大 
部 分 的 上 下 文 信息 是 难以 获取 的 ， 并 且 很 难 用 对 改善 排序 结果 始终 有 效 的 方式 进行 表达 。 

有 一 些 研究 通过 学 习 用 户 模型 (users model) 或 者 描述 文件 去 表示 用 户 的 兴趣 ， 使 得 搜 
索 能 够 个 性 化 (personalized)。 例 如 ， 如 果 系 统 知 道 一 个 人 对 体育 感 兴 趣 ， 那 么 对 他 提出 的 查 
询 “vikings”， 检 索 出 的 文档 可 能 会 与 另 一 个 对 历史 感 兴趣 的 人 用 同样 的 查询 检索 出 的 文档 不 
同 。 尽 管 这 个 想法 很 吸引 人 ， 但 是 实现 起 来 却 存 在 很 多 问题 。 首 先是 用 户 模 型 的 准确 程度 。 
最 常见 的 建议 是 ， 根 据 用 户 查 看 的 文档 建立 描述 文件 ， 例 如 访问 的 网 页 ， 邮 件 信息 ， 或 者 桌 
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面 上 的 字 处 理 文档 。 这 样 的 描述 文件 用 不 同 权重 的 词 来 表示 一 个 用 户 。 与 这 个 用 户 相关 的 文 
档 中 频繁 出 现 的 词 ， 但 又 不 是 一 些 常见 词 ， 将 被 赋予 很 高 的 权重 。 但 是 在 文档 中 会 包含 几 百 
个 其 至 几 千 个 词 ， 并且 用 户 访问 的 文档 只 能 代表 他 们 兴趣 的 一 个 方面 ， 所 以 这 个 模型 不 是 很 
明确 。 实 验 表 明 ， 采 用 这 样 的 模型 基本 上 并 没有 改善 排序 效果 。 

一 个 可 替代 的 方法 是 让 用 户 根 据 预定 义 的 类 别 对 自己 进行 描述 。 对 大 部 分 用 户 来 说 这 除 
了 增加 一 些 想 要 避免 的 额外 的 (和 可 选择 的 ) 交互 过 程 ， 还 有 一 个 基本 的 问题 ， 就 是 通常 对 
于 体育 感 兴趣 的 人 ， 也 可 能 想 要 问 关于 历史 的 问题 。 对 此 ， 每 个 查询 都 应 该 具体 到 所 属 的 兴 
趣 类 别 ， 例 如 将 查询 “vikings” 限 制 到 “history” 历 史 类 别 中 ， 但 是 这 与 输入 一 个 有 更 少 歧 
义 的 查询 并 没有 什么 区 别 。 用 户 多 输入 一 两 个 词 去 澄清 他 的 查询 ， 要 比试 图 将 一 个 查询 分 类 
到 某 个 指定 的 类 别 中 会 更 有 效 ， 例 如 “vikings quarterbacks” BY “vikings exploration” , 

基于 用 户 模型 实现 个 性 化 的 方法 ， 涉及 的 另 一 个 问题 是 隐私 (privacy)。 人 们 已 经 开始 担 
忧 存在 公司 或 政府 部 门 数 据 库 中 的 个 人 详细 信息 。 以 匿名 形式 搜索 和 浏览 网 页 已 经 逐渐 成 为 
研究 和 开发 中 的 共识 ， 所 以 在 搜索 引 警 中， 根据 用 户 上 网 行为 创建 描述 文件 可 能 会 不 受 欢迎 ， 
尤其 目前 ， 这 种 做 法 的 益处 还 不 是 很 明确 。 

用 户 模 型 和 隐私 上 的 问题 ， 并 不 意味 着 上 下 文 的 信息 没有 用 ， 而 是 对 于 任何 使 用 上 下 文 
方法 获得 的 益处 ， 都 要 仔细 地 检查 。 在 一 些 应 用 中 ， 使 用 上 下 文 信息 明显 是 有 效 的 ， 其 中 一 
种 是 使 用 检索 记录 和 点 击 流 数 据 去 改善 网 络 搜 索性 能 ， 在 这 种 应 用 中 ， 上 下 文 是 指 先前 相同 
或 相似 的 搜索 历史 ,通常 这 个 搜索 历史 是 基于 全 部 的 用 户 群体 。 个 别 用 户 的 检索 历史 也 可 以 
用 作对 整体 检索 查询 的 “缓存 ”结果 ， 但 是 使 用 用 户 群体 的 大 量 查 询 显 然 会 更 加 有 效 。 

另 一 个 有 效 使 用 上 下 文 的 应 用 是 本 地 搜索 (local search)， 它 是 从 查询 中 或 者 从 提交 查询 
设备 的 位 置信 息 中 获得 的 地 理 信息 ， 并 根据 这 些 信息 调整 排序 结果 。 例 如 ， 查 询 “fishing 
supplies” 会 产生 大 量 的 来 自 于 各 个 国家 (MAR) 供应 信息 的 相关 网 页 。 但 是 查询 “fishing 
supplies Cape Cod” 应 该 能 够 利用 “Cape Cod” 提 供 的 上 下 文 信息 ， 使 这 个 区 域 的 供应 商 获 得 
更 高 的 排序 。 与 之 相 类 似 ， 如 果 查 询 “fishing supplies” 是 在 科 德 角 (cape cod) 的 一 个 城镇 上 
通过 移动 设备 提交 的 ， 那 么 根据 获得 的 位 置信 息 ， 也 可 以 对 临近 这 个 城镇 的 供应 商 进行 排序 。 

基于 查询 的 本 地 搜索 包含 以 下 步骤 : 

1) 识别 与 网 页 相关 联 的 地 理 区 域 。 这 可 以 通过 人 工 加 入 文档 中 的 位 置 元 数据 进行 识别 ， 
或 者 通过 自动 方式 识别 位 置 ， 例 如 ， 在 文档 中 的 地 名 、 城 市 名 称 、 国 家 名 称 等 。 

2) 采用 一 些 自动 技术 识别 出 与 查询 相关 联 的 地 理 区 域 。 根 据 对 查询 日 志 的 分 析 显 示 ， 
10%~15% 的 查询 中 包含 位 置 相关 信息 。 

3) 将 查询 和 文档 中 位 置 售 息 的 对 比 结果 结合 ， 通 常 采用 文本 特征 和 链接 特征 ， 对 网 页 进 
行 排序 。 

自动 识别 文本 中 的 位 置信 息 是 第 4 章 中 介绍 的 信息 抽取 技术 的 一 个 具体 例子 。 位 置 名 称 通 
过 采用 地 理学 本 体 9S (geographic ontology) 以 及 地 理 信 息 系 统 (geographic information 
system) 中 的 空间 推理 算法 ， 上 映射 到 一 个 具体 的 区 域 和 坐标 上 。 例如 ， 文 档 中 出 现 的 位 置 
“Cape Cod” 可 以 被 映射 到 图 6-2 中 所 示 的 用 经 度 和 纬度 限定 的 矩形 框 中 ， 而 城镇 的 位 置 可 以 

日 ”本 体 与 叙 词 表 基 本 上 相同 ， 它 是 领域 中 概念 以 及 概念 之 间 关 系 的 表达 。 儿 词 表 描 述 了 词 、 短 语 以 及 它们 之 


间 的 关系 ， 本 体 通 常 比 叙 词 表 有 更 丰富 的 关系 集合 。Taxonomy 是 本 体 中 使 用 的 一 个 术语 ， 用 于 描述 概念 
的 类 别 。 
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对 应 于 一 个 更 具体 的 坐标 (或 者 更 小 的 矩形 框 )。 尽 管 这 昕 起 来 非常 直接 ， 查 是 也 存在 一 些 需 
要 处 理 的 问题 ， 例 如 辨别 地 理 名 称 的 其 体位 置 〈 例 如 ， 在 美国 有 超过 35 个 地 方 叫做 斯 普 林 非 
尔 德 《Springfield))， 决 定位 置信 息 是 否 有 意义 (如 果 网 页 内 容 是 讨论 “problems with 
Washington lobbyists”， 那 么 “Washington” 是 否 应 该 作为 一 个 位 置 元 数据 昵 ? )， 以 及 如 何 
结合 文档 中 多 个 位 置 参照 信息 。 

在 排序 中 ,地 理 信息 对 比 涉及 处 理 一 些 空间 关系 ， 如 “包含 ”( 例 如 ， 供 应 商 网 页 上 的 位 
置 元 数据 指出 供应 商 是 位 于 代表 科 德 角 的 边界 框 中 ),“ 距 离 ”( 例 如 ， 供 应 商 的 位 置 距 离 查询 
中 提 到 的 城镇 10 英 里 以 内 )， 以 及 一 些 其 他 空间 关系 。 怎 样 将 地 理 信息 恰当 地 纳入 到 排序 中 ， 
以 及 如 何在 恰当 的 时 候 使 用 地 理 信息 ， 将 会 对 系统 的 效率 和 效能 产生 影响 。 






MOP a 
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总 之 ， 对 于 改善 搜索 质量 最 有 效 的 上 下 文 信息 是 ， 在 搜索 引擎 中 已 经 发 生 的 交互 过 程 
( 即 查询 日 志和 搜索 会 话 历史 ) 。 使 用 了 地 理 上 下 文 信息 的 本 地 搜索 也 能 够 对 一 部 分 查询 产生 
实质 性 的 改善 。 查 询 扩展 通过 增加 词 项 在 富 了 查询 ， 本 地 搜索 提供 了 地 理 上 距离 的 信息 ， 这 
两 种 做 法 都 使 用 上 下 文 信息 作为 补充 的 特征 改善 了 初始 的 查询 。 可 是 对 于 理解 一 个 具体 查询 
的 上 下 文 来 说 ， 没 有 什么 方法 可 以 替代 用 户 提交 一 个 更 加 具体 的 查询 。 事 实 上 ， 本 地 搜索 的 
大 部 分 情况 是 依靠 查询 中 叙述 的 位 置信 息 ， 通 常情 况 是 用 户 检查 搜索 结果 ， 然 后 改写 查询 ， 
在 仍 没有 得 到 满意 的 结果 时 ， 会 提交 更 加 具体 的 查询 。 我 们 将 在 下 一 节 讨论 搜索 结果 的 显示 ， 
搜索 结果 必须 要 显示 出 与 查询 词 项 匹配 的 上 下 文 ， 使 得 用 户 能 够 知道 哪些 文档 应 该 仔细 阅读 
以 及 如 何 董 写 查 询 。 
6.3 搜索 结果 显示 
6.3.1 搜索 结果 页 面 与 页 面 摘要 

用 户 与 搜索 引擎 之 间 是 否 能 够 成 功 地 进行 交互 ， 取 决 于 用 户 对 检索 结果 的 理解 。 尽 管 已 
经 提出 了 各 种 展示 检索 输出 结果 的 可 视 化 技术 (Hearst 1999), 但 是 大 部 分 的 搜索 引擎 采用 排 
序 的 文档 摘要 列表 构成 检索 结果 页 面 ， 这 些 文档 摘要 (document summaries) 与 实际 的 文档 或 
页 面相 链接 。 网 络 搜索 的 文档 摘要 通常 包括 页 面 的 标题 、URL、 真 实 页 面 和 页 面 快照 的 链接 ， 
还 有 更 为 重要 的 简短 文本 摘要 或 者 称 为 页 面 摘要 (snippets) ， 用 来 传达 对 应 页 面 中 的 内 容 。 
另外 ， 大 部 分 的 结果 页 面 中 ， 还 包含 一 些 广告 的 简短 描述 和 链接 。 在 标题 、URL、 页 面 摘要 
和 广告 中 的 查询 词 被 突出 显示 ， 使 得 能 够 更 容易 地 辨别 它们 ， 这 些 词 通常 用 黑体 显示 。 

图 6-3 是 网 络 搜索 结果 页 面 中 的 一 个 文档 摘要 的 例子 ， 其 中 页 面 摘要 由 两 个 句子 中 的 一 部 
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分 组 成 。 图 6-1 展 示 了 更 多 的 页 面 摘要 的 例子 ， 其 中 有 些 页 面 摘 要 是 一 些 完整 的 句子 ， 但 更 多 
的 是 一 些 文本 片段 ， 它 们 是 从 网 页 上 抽取 出 来 的 ， 有 些 页 面 摘要 其 至 不 包含 查询 中 的 词汇 。 
在 本 节 中 ， 我 们 将 描述 页 面 摘要 生成 算法 的 一 些 基 本 特点 。 


i 
One of the U.K.s Leading suppliers of Tropical, Coldwater, Marine 


Fish and Invertebrates plus.. . next day fish delivery service ... 
www.tropicalfish.org.uk/tropical_fish.htm Cached page 





图 6-3 网 络 搜索 文档 摘要 示例 


页 面 摘要 生成 是 自动 文摘 的 一 个 应 用 实例 。 尽 管 自 动 文摘 技术 是 对 于 一 些 应 用 进行 开发 
的 ,但 主要 还 是 用 TREC 文 档 集 的 新 闻 语 料 进行 测试 。 自 动 文摘 技术 可 以 分 为 查询 无 关 文 摘 
(query-independent) 和 查询 相关 文摘 (query-dependent) 。 搜 索引 擎 结果 页 面 中 ， 页 面 摘要 显 
然 是 查询 相关 文摘 ， 因 为 用 于 生成 页 面 摘要 (snippet) 的 页 面 是 根据 查询 检索 得 到 的 。 但 是 
在 页 面 摘要 生成 过 程 中 ， 也 采用 了 一 些 查询 无 关 文 摘 中 的 方法 ， 例 如 考虑 文本 在 页 面 中 的 位 
置 以 及 文本 是 否 在 标题 中 。 

在 20 世 纪 50 年 代 ，H. P. Luhn 提 出 开展 自动 文摘 技术 的 研究 (Luhn，1958)。Luhn 的 方法 
是 采用 重要 因素 (significance factor) 对 文档 中 的 每 个 句子 进行 排序 ， 然 后 选择 最 靠 前 的 一 些 
名 子 作为 文摘 。 句 子 的 重要 因素 根据 句子 中 出 现 的 重要 词 进行 计算 ， 其 中 重要 词 定 义 为 在 文 
档 中 具有 中 等 频率 的 词 ,“ 中 等 ”的 意思 是 这 个 词 的 频率 介 于 预定 义 的 高 频 和 低频 之 间 。 根 据 
文本 中 重要 词 的 位 置 ， 可 以 得 到 被 两 个 重要 词 “ 括 起 来 ”的 文本 片段 ， 其 中 限制 了 在 两 个 重 
要 词 之 间 非 重要 词 的 最 大 数量 (通常 为 4)。 计 算 这 些 “ 括 起 来 ”的 文本 片段 的 重要 因素 是 ， 
将 其 中 重要 词 数量 的 平方 除 以 片段 中 的 总 词 数 。 如 图 6-4 中 的 例子 ， 其 中 文本 片段 的 重要 因素 
为 417=2.3。 一 个 句子 的 重要 因素 为 句子 中 包含 的 所 有 文本 片段 重要 因素 的 最 大 值 。 

NM 
(初始 句子 ) 


W WwW S WS S W WSs WwW W. 


(识别 重要 词 ) 


Ww Wl[s ws s Ww sjw w 


(由 重要 词 括 起 来 的 文本 片段 ) 





图 6-4 采用 Luhn 算 法 获得 重要 词 之 间 的 文本 片段 示例 


为 了 更 具体 地 描述 重要 词 的 定义 ， 下 面 的 公式 给 出 了 一 种 基于 频率 的 重要 词 限 定 标准 ， 
这 个 公式 已 经 成 功 地 应 用 在 最 近 的 一 些 研究 中 。 fa, ,是 词 w 在 文档 4 中 的 频率 ， 如 果 w 不 是 停 用 
词 (去 除 高 频 词 )， 那 么 w 为 重要 词 。 
7-0.1x(25~s,), Mes ,<25 
Saw >41, an25 <s,<40 
7+0.1x(s 一 40), 其 他 


其 中 ，ssa 是 文档 4 中 的 句子 数量 。 例 如 ， 在 本 书 的 第 1 章 第 2 页 (这 里 是 指 原 英文 版 书 ) 中 
包含 不 到 25 个 句子 ( 略 算 为 20 个 )， 所 以 重要 词 是 频率 ,大 于 或 等 于 6.5 的 非 停 用 词 ， 满 足 这 
个 标准 的 词 只 有 “information” (频率 为 9) , “story”( 频 率 为 8) 和 “text” (频率 为 7) 。 
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自从 Luhn 提 出 这 个 方法 以 后 ， 在 自动 文摘 研究 中 ， 有 很 多 工作 都 致力 于 改善 这 个 基本 的 
方法 ， 其 中 包括 一 些 选 择 重要 词 、 旬 子 和 句子 片段 的 更 好 方法 。 页 面 摘 要 生成 技术 可 以 看 作 
是 Luhn 方 法 的 一 种 变形 ， 其 中 查询 词 被 作为 重要 词 ， 并 采用 不 同 的 句子 选择 标准 。 

从 文档 中 选取 句子 生成 页 面 摘要 ， 可 以 利用 一 些 典 型 的 特征 ， 例 如 对 于 新 闻 文 档 ， 这 些 
特征 包括 句子 是 否 是 标题 ， 句 子 是 否 是 文档 的 第 一 或 第 二 行 ， 句 子 中 包含 查询 词 的 总 数 ， 句 
子 中 每 个 查询 词 的 数量 ， 句 子 中 出 现 的 最 长 连续 查询 词 ， 以 及 查询 词 密度 指标 ， 如 Luhn 重 要 
因素 。 在 这 个 方法 中 ， 采 用 这 些 特征 的 加 权 组 合 排序 句子 。 但 是 互联 网 网 页 不 具有 新 闻 文 档 
那样 的 结构 性 ， 其 中 经 常 包 含 大 量 不 适合 作为 页 面 摘要 的 文本 。 针 对 这 个 问题 ， 页 面 摘要 的 
句子 经 党 从 互联 网 页 面 上 附带 的 元 数据 中 选取 ， 例 如 通过 HTML 标 签 <meta 
name="description" content=...> 识 别 “description” 的 内 容 ， 或 者 可 以 利用 一 些 外 部 资源 ， 如 
网 络 字典 9 。 有 些 种 类 的 网 页 具有 更 好 的 结构 性 ， 可 以 从 直接 文本 中 选取 页 面 摘要 的 句子 ， 
如 维基 百科 (Wikipedia) 上 的 条 目 。 

尽管 在 结果 页 面 中 生成 页 面 摘要 和 文档 摘要 可 以 采用 不 同 的 方法 ， 但 是 根据 对 点 击 流 数 
据 的 分 析 ， 能 够 获得 有 效 进行 文摘 的 一 些 基本 指导 原则 (Clarke 等 ，2007)。 最 重要 的 是 ， 所 
有 的 查询 词 要 尽 可 能 地 出 现在 文摘 中 ， 以 显示 出 它们 和 检索 页 面 间 的 关系 。 但 是 当 查 询 词 已 
经 出 现在 标题 中 时 ， 就 没有 必要 在 页 面 摘要 中 再 出 现 ， 这 样 可 以 使 用 不 包含 查询 词 的 元 数据 
或 外 部 资源 中 的 句子 。 另 一 个 指导 原则 是 选择 和 显示 URL 时 ， 应 强调 它们 与 查询 词 的 关系 ， 
例如 可 以 突出 显示 在 URL 中 的 查询 词 。 最 后 ， 搜 索引 擎 用 户 显然 会 更 喜欢 页 面 摘要 中 是 可 读 
的 句子 (完整 的 句子 或 几乎 完整 的 句子 )， 而 不 是 一 些 词 或 短语 。 在 选择 页 面 摘要 的 排序 计算 
中 ， 也 应 当 包 括 衡量 可 读 性 这 个 特征 。 

页 面 摘要 生成 的 效率 也 是 在 搜索 引擎 架构 中 要 重点 考虑 的 部 分 ， 在 需要 处 理 大 量 查询 的 
情况 下 ， 显 然 采 用 查找 、 打 开 和 搜索 文档 文件 这 样 的 处 理 过 程 ， 会 产生 无 法 接受 的 开销 ， 所 
以 文档 要 在 查询 时 从 本 地 的 文档 库 或 缓存 中 取出 并 解压 缩 。 用 于 生成 页 面 摘要 的 文档 中 ， 应 
去 除 所 有 的 HTML 标 签 和 其 他 的 “噪声 ”( 如 Javascript) ， 但 仍然 需要 将 元 数据 与 文本 内 容 区 
分 开 来 。 另 外 ， 和 句子 边界 应 该 在 建立 索引 的 时 个 识别 和 标记 出 来 ， 以 避免 在 选择 页 面 时 进行 
这 种 消耗 时 间 的 操作 。 

6.3.2 广告 与 搜索 


告 是 搜索 引擎 中 的 关键 部 分 ， 因 为 搜索 引擎 公司 要 用 它 去 获取 收益 。 对 于 在 搜索 结果 
中 展示 广告 (竞价 搜索 (sponsored search)) 来 说 ， 目 的 是 要 找到 符合 查询 上 下 文 信息 的 广告 。 
当 浏 览 网 页 时 ， 应 根据 网 页 内 容 选择 要 展示 的 广告 。 内 容 关 联 广 告 (contextual advertising) 
的 想法 是 让 更 多 用 户 去 点 击 广告 〈 点 选 链接 ) ， 这 也 决定 了 广告 的 费用 。 搜 索引 擎 公司 维护 一 
个 广告 数据 库 ， 在 其 中 搜索 到 与 查询 或 网 页 最 相关 的 广告 。 在 这 个 数据 库 中 的 广告 通常 包括 
简短 的 文本 描述 和 详细 介绍 产品 或 服务 的 页 面 链接 ， 所 以 广告 数据 库 的 搜索 也 可 以 看 作 是 常 
规 文本 搜索 的 一 个 特殊 情况 。 

但 事情 也 不 是 那么 简单 ， 不 能 仅 根据 简单 文本 的 排序 去 选择 广告 。 广 告 客户 会 出 价 竞 买 
一 些 能 够 描述 他 们 产品 主题 的 关键 词 ， 这 样 ， 与 查询 匹配 的 关键 词 价格 也 是 选择 广告 的 重要 
因素 。 另 外 ， 有 些 广告 对 于 用 户 群 体 更 具 吸 引力 ， 可 以 产生 更 多 的 点 击 流 ， 这 样 ， 广 告 的 受 
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欢迎 程度 也 是 选择 广告 的 一 个 重要 因素 ， 广 告 的 受 欢迎 程度 可 以 通过 一 段 时 间 内 查询 日 志 中 
的 点 击 流 数据 来 衡量 ， 并 可 以 根据 全 部 查询 或 一 些 具 体 查 询 来 衡量 。 具 体 查 询 的 受 欢迎 程度 
只 能 用 于 一 些 定期 出 现 的 查询 。 对 于 大 部 分 不 常 出 现 的 查询 ( 称 为 长 尾 查 询 S (long-tail 
queries) ) ， 可 以 采用 广告 的 普遍 受 欢迎 程度 。 通 过 考虑 所 有 这 些 因 素 ， 即 相关 性 、 出 价 、 受 
欢迎 程度 ， 搜 索引 擎 公司 可 以 制定 一 些 策略 来 最 大 化 他 们 的 预期 利润 。 

例如 ， 一 个 专门 经 营 热带 鱼 的 宠物 供应 公司 ， 可 能 会 对 关键 词 “aquarium” 和 “tropical 
fish” 出 很 高 的 价格 。 如 果 查 询 是 “tropical fish”， 这 个 关键 词 当 然 是 相关 的 ， 这 个 公司 的 广 
告 内 容 中 也 应 该 包含 了 一 些 与 查询 匹配 的 词 。 这 样 ， 这 个 公司 的 广告 将 会 在 内 容 相 关上 获得 
很 高 的 得 分 ， 并 且 在 出 价 上 也 会 获得 很 高 的 得 分 。 尽 管 这 个 公司 给 出 了 最 高 的 价格 ， 但 如 果 
另 一 个 广告 是 更 受 欢迎 的 ， 并 且 对 于 相同 的 关键 词 也 给 出 了 比较 高 的 价格 ， 那 么 它 的 广告 仍 
有 一 些 机 会 能 被 选择 。 

目前 开展 的 一 些 研究 致力 于 开发 如 何 最 大 化 广告 客户 利润 的 算 东 ， 他 们 借鉴 了 一 些 其 他 
的 领域 ， 如 经 济 学 和 博弈 论 。 从 信息 检索 的 角度 ， 关 键 问 题 是 匹配 短文 本 (查询 和 广告 ) 以 
及 选择 代表 网 页 内 容 的 关键 词 。 

在 搜索 网 页 的 时 候 ， 在 一 些 网 页 中 通常 包含 了 所 有 的 查询 词 项 。 但 是 在 查询 与 广告 文本 
相 比 较 时 ， 情 况 并 非 如 此 。 与 常规 的 网 页 相 比 ， 广 告 中 包含 了 较 少 的 词 和 关键 词 ， 并 且 广 告 
数据 库 规模 与 互联 网 相 比 要 小 几 个 数量 级 。 能 够 匹配 上 查询 中 出 现 的 广告 关键 词 的 变形 ， 也 
是 非常 重要 的 ， 例 如 ， 如 果 一 个 宠物 供应 公司 对 “aguarium” 出 了 高 价 ， 它 当然 希望 能 够 接 
到 来 至 查询 “fish tank” 的 业务 。 当 然 这 是 经 典 的 词 表 不 匹配 (vocabulary mismatch) 问题 ， 
针对 这 个 问题 ， 已 经 提出 了 一 些 处 理 技术 ,例如 词 干 提取 和 查询 扩展 。 由 于 广告 文本 比较 短 ， 
所 以 一 些 扩展 技术 不 仅 应 用 在 查询 上 ， 也 被 应 用 于 广告 文档 。 

在 一 些 实验 中 ， 有 两 种 技术 表现 出 很 好 的 效果 ， 一 种 是 基于 查询 日 志 中 用 户 会 话 的 查询 
改写 (Jones 等 ，2006) ， 另 一 种 是 用 外 部 资源 进行 查询 和 文档 扩展 ， 如 利用 互联 网 资源 
(Metzler 等 ，2007) 。 

研究 结果 表明 ， 在 一 个 会 话 期 中 有 大 约 50% 的 查询 被 改写 ， 用 户 通 过 对 初始 查询 中 词 的 
替换 、 插 和 信和 删除 ， 修 改 这 些 查询 。 在 查询 和 查询 中 的 短语 之 间 ， 会 有 很 多 候选 关联 度 ， 采 
用 像 6.2.3 节 中 描述 的 统计 检验 的 方法 ， 可 以 决定 哪个 关联 度 是 更 显著 的 。 例 如 ， 短 语 “fish 
tank” 与 “aquarium” 之 间 的 关联 ， 可 能 会 经 常 出 现在 用 户 想 要 找到 更 多 的 页 面 而 重 写 他 的 初 
始 查询 的 搜索 会 话 期 间 。 如 果 相 对 于 这 些 短语 的 频率 来 说 ， 这 种 关联 更 是 经 常 出 现 的 ， 它 就 
是 显著 的 。 这 些 显著 关联 的 词汇 可 以 被 用 作 候 选 的 替换 词汇 ， 所 以 对 于 一 个 初始 查询 ， 可 以 
生成 一 个 排序 的 查询 改写 列表 ， 这 个 列表 更 着 重 于 生成 匹配 广告 关键 词 的 查询 。 

这 样 的 扩展 技术 包括 利用 互联 网 去 扩展 查询 ， 扩 展 广告 文本 ， 或 者 对 两 者 都 进行 扩展 。 
可 以 采用 一 种 伪 相 关 反 馈 的 形式 进行 扩展 ， 将 广告 文本 或 关键 词 作为 查询 进行 互联 网 检索 ， 
从 检索 到 的 最 高 排序 的 网 页 中 选择 扩展 词汇 。 一 些 实验 结果 表明 ， 对 于 广告 最 有 效 的 相关 排 
序 是 ， 将 完全 匹配 整个 查询 的 广告 排序 在 最 前 面 ， 然 后 是 能 够 完全 匹配 经 过 词 干 替 换 查询 的 
广告 ， 再 后 面 是 根据 概率 相似 度 匹 配 扩展 后 查询 的 扩展 广告 文本 。 相 似 度 匹配 将 在 7.3 节 中 
介绍 。 

O if] “KZ (long-tail)” 来 自 于 第 4 章 中 描述 的 齐 普 夫 分 布 中 的 长 尾 。 假 设 一 个 查询 是 一 个 具体 的 词组 合 ， 

大 部 分 的 查询 都 以 较 低 的 频率 出 现 ， 搜 索引 擎 处 理 的 大 部 分 查询 实例 的 出 现 数 量 都 相对 较 少 。 
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例如 ， 图 6-5 是 一 个 搜索 引擎 对 查询 “fish tanks” 生 成 的 广告 列表 。 其 中 两 个 广告 显然 是 
匹配 的 , “fish tanks” 出 现在 搜索 结果 的 标题 中 。 还 有 两 个 〈 第 二 个 与 第 四 个 ) 与 查询 天 相同 
的 词 ， 但 它们 也 是 相关 的 。 用 6.2.4 节 中 的 伪 相 关 反 馈 技 术 ， 根 据 前 10 个 排序 结果 将 产生 
“aquarium” (频率 10) 和 “acrylic” (频率 7) 作为 扩展 词 项 。 这 将 给 包含 “aquarium ”的 广告 
很 高 的 相关 程度 得 分 ， 例 如 第 二 个 。 第 四 个 广告 被 选取 的 原因 大 概 是 宠物 供应 商 购买 了 关键 
词 “aquarium”， 或 者 是 因为 已 经 有 一 些 用 户 点 击 了 这 个 广告 。 第 三 个 广告 与 查询 是 相似 的 ， 
匹配 了 查询 中 的 一 个 词 。 

对 于 网 页 的 内 容 相 关 广 告 ， 关 键 词 一 般 是 从 网 页 内 容 中 选取 ， 然 后 用 这 些 关 键 词 去 搜索 
广告 数据 库 ， 选 择 可 以 与 网 页 内 容 一 起 展示 的 广告 。 关 键 词 选取 技术 与 上 节 中 介绍 的 自动 文 
摘 技术 很 相似 。 一 个 简单 的 关键 词 选 取 方 法 是 ， 根 据 当 前 页 面 的 文档 和 文档 集中 词 的 相对 频 
率 ， 计 算 词 的 重要 度 ， 并 根据 这 个 重要 度 对 词 进行 排序 ， 选 择 排序 在 前 的 词 作为 关键 词 。 


fish tanks at Target 
Find fish tanks Online. Shop & Save at Target.com Today. 
www.target.com 


Aquariums 
540+ Aquariums at Great Prices. 
fishbowls.pronto.com 


Freshwater Fish Species 
Everything you need to know to keep your setup clean and beautiful 
www.FishChannel.com 





Pet Supplies at Shop.com 
Shop millions-of products and buy from our trusted merchants. 


shop.com 

Custom Fish Tanks 

Choose From 6,500+ Pet Supplies. Save On Custom Fish Tanks! 
shopzilla.com 


图 6-5 搜索 引擎 对 查询 “fish tanks” 展 示 的 广告 


一 个 更 有 效 的 方法 是 ， 采 用 将 在 第 9 章 中 介绍 的 基于 机 器 学 习 技术 的 分 类 器 (classifier) 。 
分 类 器 采用 特征 的 加 权 组 合 ， 来 决定 哪 一 个 词 或 短语 是 更 重要 的 。 典 型 的 特征 包括 词 或 短语 
在 文档 中 的 频率 ， 出 现 词 或 短语 的 文档 数量 ， 这 些 频 率 的 函数 值 例如， 采用 log 值 或 归 一 化 
处 理 )， 在 查询 日 志 中 出 现 的 频率 ， 词 或 短语 在 文档 中 的 位 置 (例如 标题 、 正 文 、 锚 文本 、 元 
数据 、URL) ， 以 及 是 否 词 或 短语 是 大 写 形式 的 或 以 某 种 形式 突出 显示 。 其 中 最 有 用 的 特征 是 
文档 和 查询 日 志 的 频率 信息 〈Yih 等 ，2006)。 
6.3.3 ”结果 聚 类 


搜索 引擎 返回 的 结果 中 经 常 包含 了 与 查询 主题 相关 的 不 同方 面 。 当 查询 比较 模糊 时 ， 检 
索 到 的 结果 文档 中 ， 往 往 表 达 了 对 查询 的 不 同 解释 。 例 如 ， 我 们 已 经 看 到 了 查询 “tropical 
fish” 是 怎样 检索 到 与 养 鱼缸 、 宠 物 供应 商 、 图 片 以 及 其 他 的 子 主题 (subtopic) 相关 的 文档 。 

一 个 更 简单 的 查询 “fish”， 甚 至 能 够 检索 到 混杂 各 种 类 型 的 文档 集合 ， 其 中 可 能 包含 关 
于 海洋 、 软 件 产品 、 摇 深 歌 手 以 及 其 他 磁 巧 用 到 “fish” 这 个 词 的 文档 。 如 果 用 户 只 对 查询 主 
题 的 其 中 一 个 方面 感 兴 趣 ， 那 么 在 浏览 了 一 些 其 他 方面 的 页 面 后 ， 他 可 能 会 感到 失望 ， 这 是 
要 对 检索 结果 进行 聚 类 (clustering) 的 动机 。 聚 类 是 将 检索 结果 文档 按照 内 容 相 似 聚 成 一 些 
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组 并 标记 每 个 组 ， 使 得 用 户 能 够 很 快 浏览 到 相关 类 别 。 
图 6-6 中 是 由 一 个 网 络 搜索 引擎 对 查询 “tropical 






















fish” 检 索 出 的 排序 靠 前 文档 进行 豪 类 的 结果 列表 。 这 Pictures (8) 
Aquarium Fish (28) 
个 列表 中 的 每 一 得 用 单个 词 或 短语 给 予 描述 或 标记 ， Tropical Fish Aquarium (26) 
并 指出 每 个 化 中 文档 的 数量 ， 这 个 列表 显示 在 常规 搜 Exporter (31) 
Ree RSH. FA Pn hR, BT Supplies (32) 
点 击 这 个 答 的 标签 查看 化 中 的 文档 ， 不 需要 再 查看 整 a 
个 排序 的 文档 去 寻找 符合 兴趣 的 文档 。 在 这 个 例子 中 ， Breeding (16) 
x HORE HH et SRA SIO ERK, ane ny Marine Fish (16) 








商 和 图 片 。 

聚 类 技术 将 在 第 9 章 中 详细 讨论 。 在 本 节 中 ， 我 们 
主要 介绍 检索 结果 聚 类 的 具体 要 求 。 第 一 个 要 求 是 效 
率 (efficiency)。 对 于 每 个 查询 都 要 根据 检索 出 的 排 
序 靠 前 的 文档 集合 ， 生 成 一 个 特定 的 察 类 结果 。 对 于 
常见 查询 的 聚 类 结果 可 以 缓存 起 来 ,但 是 对 于 大 部 分 的 查询 ， 认 类 结果 仍 需 要 以 在 线 方式 
生成 ， 这 个 过 程 必须 是 高 效 的 。 通 常 的 做 法 是 根据 文档 页 面 摘要 中 的 文本 进行 豪 类 ， 页 面 
摘要 比 文档 全 文 包 含 了 更 少 的 词 ， 因 为 计算 涉及 词 重 全 比较 ， 所 以 这 将 极 大 地 提高 计算 速 
度 。 并 且 页 面 摘 要 文本 更 着 重 于 查询 的 主题 ， 而 文档 中 通常 要 包含 仅 与 查询 部 分 相关 的 一 
些 文本 段落 。 

第 二 个 重要 的 检索 结果 育 类 的 要 求 是 ， 它 们 应 该 容易 理解 。 例 如 ， 在 图 6-6 中 ， 每 个 答 用 
单个 词 或 短语 加 上 标签 ， 用 户 能 够 猜想 到 在 答 中 是 与 标签 的 描述 相关 的 文档 。 例 如 在 标签 为 
“Pictures” 的 得 中 ， 可 以 合理 地 预料 每 个 文档 中 都 包含 有 鱼 的 图 片 。 这 是 一 个 单 因 素 
(monothetic) 分 类 的 例子 ， 其 中 一 个 类 别 中 的 每 个 成 员 都 具有 定义 这 个 类 别 的 属性 2 。 这 似 
乎 是 显而易见 的 ， 但 事实 土 ， 大 部 分 的 附 类 算法 生成 的 类 别 形 式 都 不 是 这 样 的 。 例 如 区 均值 算 
法 (K-means) 是 根据 词 重 倒 生成 一 个 簇 或 类 别 中 的 成 员 8 。 换 言 之 ， 徐 中 的 成 员 共 有 一 些 属 
性 ， 但 没有 单独 定义 的 属性 ， 这 称 为 多 因素 (polythetic) 分 类 。 对 于 检索 结果 聚 类 ， 首 选 产 
生 单 因素 分 类 结果 的 技术 〈 或 者 至 少 看 起 来 是 单 因素 分 类 的 结果 ) ， 因 为 产生 这 样 的 结果 将 更 
容易 理解 。 

例如 ， 在 搜索 结果 中 包含 文档 D,、D，、D; 和 Ds， 这 些 文档 中 包含 的 词 项 ( 即 词 或 短语 ) 
属于 集合 {a,b，c，d，e，f，g}。 用 词 项 集合 来 表示 每 个 文档 : 

D, = {a, b, c} 

D, = {a, d, e} 

D, = {d, e, f, g} 

D, -{f, g} 

一 个 单 因素 算法 可 能 将 ac 和 e 作 为 重要 词 项 ， 生 成 两 个 得 分 别 是 {PDi，D2} RE Aa) 
和 {D，,，D3} (标签 为 e)。 这 些 徐 是 有 重合 的 ， 即 一 个 文档 可 以 属于 多 个 艇 。 而 基于 词 项 重 准 


Aquaria (9) 


图 6-6 搜索 引 敬 对 查询 “tropical fish” Ay 
排序 靠 前 文档 的 诊 类 结果 (括号 
里 的 数字 是 每 个 复 中 的 文档 数量 ) 





怠 ” 这 也 是 在 2400 年 前 亚 里 士 多 德 提出 的 类 别 定 义 。 
旬 ”K 均 值 聚 类 将 在 第 9 章 中 介绍 ， 其 基本 思想 是 ， 将 一 个 文档 与 现 有 的 群集 中 的 代表 进行 比较 ， 然 后 将 其 加 入 
SAUER. 
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的 多 因素 算法 ， 可 能 仅 生 成 一 个 徐 {D，， D;, Ds} 一 一 其 中 D; 与 D3 有 两 个 词 相 同 ， D,; 与 D4 有 两 
个 词 相同 。 这 三 个 文档 没有 相同 的 单个 词 项 ， 所 以 不 能 确定 这 个 答应 该 标记 什么 标签 。 

如 果 对 于 图 6-1 中 的 页 面 摘要， 根据 在 多 个 文档 中 出 现 的 非 停 用 词 进行 简单 的 聚 类 ， 将 得 
到 下 面 结果 : 

aquarium (5) (文档 1，3，4，5，8) 

freshwater (4) (1, 8, 9, 10) 

species (3) (2, 3, 4) 

hobby ‘(3) (1, 5, 10) 

forums (2) (6, 8) 

在 这 个 技术 的 实现 中 ， 词 和 短语 都 会 被 用 到 ， 并 且 会 采用 更 多 的 排序 靠 前 的 页 面 摘 要 
(比如 说 200 个 ) 。 在 聚 类 中 ， 还 会 用 到 一 些 其 他 的 词 或 短语 的 特征 ， 如 它们 是 出 现在 标题 中 还 
是 页 面 摘要 中 ， 短 语 的 长 诬 ， 短 语 在 文档 集中 的 频率 以 及 聚 类 结果 答 之 间 的 相互 重 释 程 度 。 

一 种 将 检索 结果 组 织 到 各 个 不 同 售 义 的 类 别 中 的 方法 ， 称 为 逐 面 分 类 法 (faceted 
classification 或 简称 facet)。 逐 面 分 类 法 是 由 一 些 类 别 构成 ， 遂 常 这 些 类 别 被 组 织 成 层次 形式 ， 
每 个 类 别 用 一 组 层面 来 描述 与 其 相关 的 一 些 重要 属性 。 例 如 ， 使 用 逐 面 分 类 甘 分 类 的 产品 ， 
可 以 被 标注 为 多 个 类 别 ， 并 且 每 个 层面 都 有 值 。 层 面 的 分 类 主要 是 通过 人 工 去 定义 ， 但 是 也 
可 以 使 用 数据 库 模 式 以 及 正在 研究 的 一 些 自动 构建 层面 类 别 的 技术 ， 将 数据 以 结构 化 形式 组 
织 起 来 ， 使 得 可 以 通过 层面 的 形式 浏览 这 些 数 据 。 人 工 定 义 层 面 的 主要 优点 是 ， 与 自动 生成 
镁 标签 相 比 ， 类 别 通 常 更 容易 被 用 户 理解 。 其 缺点 是 ， 对 于 每 个 新 的 应 用 和 和 领域， 都 要 重新 
定义 类 别 ， 并 且 人 工 构 建 的 类 别 常常 是 静态 的 ， 不 会 像 动 态 构 建 徐 那样 对 新 的 数据 有 相应 的 
调整 。 

逐 面 分 类 法 普遍 应 用 于 电子 商务 领域 中 ， 图 6-7 展 示 了 在 一 个 流行 的 零售 商 网 站 上 ， 对 于 
查询 “tropical fish” 返 回 的 类 别 集合 。 图 中 数字 是 与 查询 匹配 的 每 个 分 类 中 产品 的 数量 ， 这 
些 分 类 展示 在 检索 结果 的 旁边 ， 类 似 于 前 面 讨 论 的 察 类 结果 。 如 果 选 择 了 “Home & Garden” 
类 别 ， 图 6-8 就 展示 了 一 个 子 类 的 列表 ， 如 “pet supplies”， 以 及 这 个 类 别 的 层面 ， 包 括 品 牌 
名 称 、 供 应 商 或 卖主 名 称 、 折 扣 程 度 以 及 价格 。 对 于 一 个 产品 ， 例 如 鱼缸 ， 能 够 包括 在 “pet 
supplies” 类 别 中 ， 并 且 也 包含 在 适当 的 价格 类 别 和 折扣 价格 类 别 中 。 

这 种 组 织 方式 在 用 户 浏览 检索 结果 时 ， 具 有 很 好 的 引导 性 和 灵活 性 。 

Books (7,845) DVD (12) 
Home & Garden (2,477) Music (11) 


Apparel (236) Software (10) 

Home Improvement (169 Gourmet Food (6) 
Jewelry & Watches (76) Beauty (4) 
Sports & Outdoors (71) Automotive (4) 


Office Products (68 Magazine Subscriptions (3) 
Toys & Games (62) Health & Personal Care (3) 
Everything Else (44) Wireless Accessories (2) 


Electronics (26 Video Games (1) 
Baby (25) 





图 6-7 一 个 流行 的 在 线 零售 网 站 上 对 查询 “Tropical fish” 返 回 的 类 别 结果 
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Home & Garden Discount 















Kitchen & Dining (149) Up to 25% off (563) 
Furniture & Décor (1,776) 25% - 50% off (472) 
Pet Supplies (368) 50% - 70% off (46) 
Bedding & Bath (51) 70% off or more (46) 
Patio & Garden (22) 
Art & Craft Supplies (12) Price 
Home Appliances (2) $0-$24 (1,032) 
Vacuums, Cleaning & Storage $25-$49 (394) 
{107) $50-$99 (797) 
$100-$199 (206) 
Brand $200-$499 (39) 
<brand names> $500-$999 (9) 
Seller $1000-$1999 (5) 
<vendor names> $5000-$9999 (7) 





图 6-8 在 类 别 “Home & Garden” 中 的 子 类 别 和 层面 


6.4 跨 语 言 搜索 


通过 对 一 个 或 多 个 采用 不 同 语言 的 单 语言 搜索 引擎 中 的 查询 进行 翻译 ， 可 以 实现 跨 语言 
搜索 (cross-language search) © (参见 图 6-9) 。 跨 语言 搜索 引擎 中 ， 采 用 一 种 语言 的 查询 
(例如 英语 ) 和 其 他 各 种 语言 的 文档 (例如 法 语 和 中 文 )。 用 户 一 般 不 会 熟悉 多 种 语言 ， 所 以 
跨 语言 搜索 引擎 必须 能 够 自动 翻译 查询 。 由 于 系统 使 用 多 种 语言 的 文档 ， 所 以 一 些 系 统 为 用 
户 翻 译 这 些 文档 。 


使 用 其 他 语言 的 
搜索 引擎 


NS T ~ 1 
i 检索 出 其 他 语 
| me t ie 言 的 文档 
I 


图 6-9 跨 语言 搜索 


自动 翻译 最 显而易见 的 方法 是 ， 使 用 一 个 大 型 双语 字典 将 源 语言 词汇 (例如 英语 ) 翻译 
到 目标 语言 (例如 法 语 )， 通 过 在 字典 中 查找 句子 中 的 每 个 词 进行 翻译 。 这 个 方法 的 主要 问题 
是 如 何 处 理 歧义 ， 因 为 一 些 词 会 有 多 种 意思 。 通 常 ， 简 单 地 利用 字典 进行 翻译 效果 很 差 ， 但 
是 可 以 采用 一 些 技术 (例如 查询 扩展 ， 见 6.2.3 节 ) 去 减少 歧义 ， 并 将 跨 语 言 系 统 的 排序 效果 
提高 到 与 单 语言 系统 相当 的 程度 。 

基于 统计 机 器 翻译 模型 (statistical machine translation model) 的 方法 ， 是 最 有 效 和 最 常 


日 ”也 称 为 cross-language information retrieval (CLIR), cross-lingual search 和 mnultilingual search, 
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用 的 自动 翻译 方法 (manning & Sch iitze，1999)。 与 翻译 查询 不 同 ， 翻 译文 档 或 网 页 时 ， 不 
仅 歧 义 是 一 个 问题 ， 而 且 需 要 考虑 翻译 的 句子 是 否 符合 语法 。 在 翻译 句子 的 时 候 ， 一 些 词 的 
顺序 可 能 会 改变 ， 可 能 会 被 赂 掉 或 者 翻译 成 更 多 的 词 。 统 计 翻 译 模 型 用 概率 来 表示 这 些 变化 ， 
这 意味 着 这 个 模型 描述 了 一 个 词 被 翻译 成 另 一 个 词 的 概率 、 词 改变 顺序 的 概率 、 词 被 略 掉 或 
翻译 成 多 个 词 的 概率 ， 用 这 些 概 率 计算 出 句子 最 有 可 能 的 翻译 结果 人 9。 

尽管 基于 词 到 词 翻译 概率 的 模型 与 基于 字典 的 模型 很 相似 ， 但 是 如 果 翻 译 概率 很 准确 ， 
那么 它们 也 会 有 非常 不 同 的 翻译 质量 ， 并 且 能 够 将 歧义 词 的 不 常见 翻译 意思 从 那些 常见 的 翻 
译 意思 中 识别 出 来 。 最 近 根 据 这 个 模型 提出 了 基于 短语 的 翻译 模型 (phrase-based translation 
model) ， 它 不 是 计算 单个 词 的 概率 ， 而 是 计算 词 序列 的 概率 ， 这 种 模型 能 够 在 翻译 中 更 好 地 
使 用 上 下 文 。 例 如 一 个 词 “flight” 能 够 根据 短语 “commercial flight” 更 准确 地 翻译 它 ， 而 不 
会 翻译 为 “bird flight” 中 的 意思 。 

在 统计 机 器 翻译 模型 中 ， 主 要 用 平行 语料库 (parallel corpora) 进行 概率 估计 。 平 行 语 料 
库 是 由 一 种 语言 的 文档 和 将 它 翻 译 成 其 他 的 一 种 或 多 种 语言 文档 构成 的 文档 集 ， 这 种 语 料 主 
要 是 从 政府 组 织 、 新 闻 组 织 获 得 ， 或 者 从 互联 网 上 采集 ， 因 为 在 互联 网 上 有 成 千 上 万 的 翻译 
页 面 。 在 平行 语料库 中 的 句子 采用 人 工 或 自动 方式 对 齐 (aligned)， 即 每 个 句子 要 和 它 的 翻译 
名 进行 配对 ， 然 后 使 用 对 齐 后 的 句子 训练 翻译 模型 。 

一 些 非常 用 词 的 翻译 是 要 特别 注意 的 ， 尤 其 像 人 名 这 样 的 专 有 名 词 。 对 于 这 些 特别 的 词 ， 
互联 网 是 一 个 丰富 的 资源 。 自 动 音译 (transliteration) 技术 也 用 来 处 理 人 名 的 问题 。 人 名 通 
常 不 翻译 成 另外 的 一 种 语言 ， 而 是 进行 音译 ， 即 人 名 的 翻译 是 根据 一 些 规则 或 相似 的 发 音 用 
另 一 种 语言 的 字符 写 出 它 ， 这 样 对 同一 个 人 名 可 能 会 有 不 同 的 翻译 拼写 方法 。 例 如 ， 利 比 亚 
领导 人 穆 阿 玛 尔 . -RILE (Muammar Qaddafi) 的 名 字 在 互联 网 上 有 多 种 的 音译 形式 ， 如 
Qathafi Kaddafi, Qadafi、 Gadafi、Gaddafi、Kathafi、Kadhafi、Qadhafi、Qazzafi、Kazafi、 
Qaddafy、Qadafy、Quadhaffi、Gadhdhafi、al-Qaddafi、Al-Qaddafij 和 Al Qaddafi。 与 之 相 类 似 ， 
在 阿拉 伯 语 的 网 页 上 ,“Bill Clinton” 的 名 字 也 被 翻译 成 很 多 种 形式 。 

尽管 一 些 网 络 搜索 引擎 并 没有 被 视 为 是 跨 语言 的 搜索 系统 ， 但 是 它们 也 经 常 检索 出 各 种 
语言 的 网 页 ， 由 于 这 个 原因 ， 在 有 些 搜 索引 擎 的 检索 结果 页 面 上 ， 提 供 了 一 些 翻 译 设置 。 图 
6-10 中 展示 了 根据 查询 “pecheur france” 检 索 的 一 个 网 页 结果 示例 ， 其 中 翻译 选择 用 超 链 接 
显示 ， 点 击 这 个 链接 ， 就 可 以 产生 一 个 翻译 的 页 面 (不 是 页 面 摘要 )， 这 个 页 面 清楚 地 显示 包 
含 了 到 体育 杂志 Le Pêcheur de France 文 档 库 的 链接 , 但 它 被 翻译 成 “The fisherman of France”, 
尽管 这 些 翻 译 效 果 还 不 理想 ,但 通常 它 也 提供 了 足够 的 信息 ， 使 得 用 户 能 够 理解 网 页 的 相关 
内 容 。 这 些 翻译 是 采用 机 器 翻译 技术 自动 生成 的 ， 因 为 如 果 采 用 人 工 处 理 ， 将 无 法 承受 其 高 
昂 的 费用 。 

Le pêcheur de France archives @ peche poissons - [ Translate this page ] 


Le pécheur de France Les média Revues de péche Revue de presse Archives de la revue 
Le pêcheur de France janvier 2003 n°234 Le pêcheur de France mars 2003 ... 


图 6-10 查询 “pecheur france” 检 索 结果 列表 中 的 一 个 法 语 网 页 









O ”机 器 翻译 模型 的 最 简单 形式 实际 上 与 7.3.1 节 中 查询 似 然 度 模 型 非常 相似 。 主 要 的 不 同 是 ， 将 翻译 概率 
P(wilw) 结 合 到 P(CID) 的 概率 估计 中 ， 其 中 P(wwj) 是 词 w 被 翻译 成 w; 的 概率 ，P(CID) 是 从 一 个 文档 生成 一 
个 查询 的 概率 ， 在 翻译 模型 中 ， 它 成 了 一 个 文档 翻译 成 一 个 查询 的 概率 。 
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参考 文献 和 深入 阅读 


本 章 包括 了 很 多 的 主题 ， 并 且 这 些 主题 历经 多 年 的 研究 ， 因 此 有 许多 相关 的 参考 文献 ， 
与 我 们 在 此 所 叙述 的 内 容 相 比 ， 这 些 文献 提供 了 更 多 的 细节 。 下 面 的 文章 和 书籍 代表 了 一 些 
重要 的 贡献 ， 但 是 对 于 想 要 深入 理解 某 一 具体 主题 的 人 来 说 ， 这 些 文章 或 书籍 都 包含 了 一 些 
其 他 的 研究 工作 。 

KF “natural language” 的 布尔 查询 或 关键 词 查询 的 优点 和 缺点 ， 已 经 历经 了 30 多 年 的 
讨论 。 在 法 律 检 索 领 域 ， 这 个 争论 尤其 活跃 ， 可 以 参见 在 20 世 纪 90 年 代 早 期 第 一 个 在 大 规模 
文档 集 上 采用 简单 查询 和 排序 方法 的 搜索 引擎 的 介绍 。Turtle (1994) 描述 了 将 专家 布尔 检索 
与 基于 简单 查询 的 排序 方法 进行 的 数量 化 比较 ， 他 发 现 甚 至 在 一 些 专业 领域 ， 简 单 查询 也 是 
非常 有 效 的 。 下 一 章 将 更 详细 地 讨论 布尔 检索 模型 。 

J. Xu 和 Croft (1998) 对 于 基于 语料库 分 析 的 查询 词 二 提取， 进行 了 更 为 细致 的 叙述 。 要 
了 解 用 在 信息 检索 中 的 关联 度 衡量 方法 如 戴 斯 系数 的 早期 历史 ， 可 以 参见 Van Rijsbergen 
(1979)。Peng 等 (2007) 提出 了 在 网 络 搜 索 中 基于 语料库 词 干 提取 的 一 个 新 方法 。 

Kukich (1992) 对 一 些 拼写 校正 技术 进行 了 综述 。Jurafsky 和 Martin (2006) 更 详细 地 介 
绍 了 在 拼写 校正 中 采用 的 最 小 编辑 距离 和 噪声 通道 模型 。Guo 等 (2008) 提出 了 将 查询 提炼 
的 各 个 步骤 (例如 拼写 校正 、 词 干 提取 、 短 语 识别 ) 结合 到 一 个 简单 模型 中 的 方法 。 他 们 的 
结果 显示 ， 相 对 于 分 别 进行 这 些 步 又 ， 采 用 一 个 融合 的 模型 能 够 提高 效果 。 

对 于 查询 扩展 已 经 开展 了 许多 研究 ，Efthimiadis (1996) 给 出 了 查询 扩展 技术 的 历史 和 
综述 ， 其 中 包括 基于 叙 词 表 的 扩展 。 如 前 所 述 ，Van Rijsbergen (1979) 描述 了 信息 检索 中 关 
联 度 衡量 方法 的 进展 ， 包 括 采 用 互信 息 的 方法 。 在 计算 语言 学 中 ， 在 用 到 互信 息 构建 词典 时 ， 
经 常会 引用 Church 和 Hanks 的 文章 (1989) ，Manning 和 Schiitze (1999) 对 这 些 方法 以 及 本 章 
中 提 到 的 其 他 相关 度 衡量 方法 进行 了 很 好 的 综述 。 

Jing 和 Croft (1994) 提出 了 根据 共 现 的 词组 成 的 虚拟 文档 去 构造 “关联 叙 词 表 ” 的 技术 ， 
Beeferman 和 Berger (2000) 以 及 Cui 等 (2003) 描述 了 使 用 查询 日 志 的 数据 进行 查询 扩展 。 

Rocchio (1971) 最 先 开 展 了 相关 反馈 的 研究 工作 ， 随 后 Salton 和 McGill (1983) 及 Van 
Rijsbergen (1979) 也 对 其 进行 了 大 量 的 研究 。J.Xu 和 Croft (2000) 是 在 伪 相 关 反 馈 研究 方面 
经 常 被 引用 的 文章 ， 其 中 对 基于 排序 靠 前 的 文档 的 “local” -技术 和 基于 文档 集中 词 相关 的 
“global” 技 术 进 行 了 比较 。 根 据 对 TREC 评 测 实验 的 长 达 10 年 的 研究 ，Voorhees 和 Harman 
(2005) 这 本 书 中 包含 了 对 相关 反馈 和 伪 相 关 反 馈 技术 的 一 些 描述 。 

上 下 文 和 个 性 化 是 一 个 流行 的 主题 。 在 一 些 研 讨 会 和 会 议 上 发 表 了 许多 相关 的 文章 ， 例 
如 JInformation Interaction in Context Symposium(IIiX)? 。Wei 和 Croft (2007) 通过 实验 研究 提 
出 了 用 户 描述 文件 的 潜在 益处 中 存在 的 问题 。Chen 等 (2006) 和 Zhou 等 (2005) 讨论 了 能 
有 效 地 处 理 本 地 搜索 查询 的 索引 结构 ， 并 且 给 出 了 本 地 搜索 的 一 般 概述 。V.Zhang 等 (2006) 
在 本 地 搜索 的 研究 中 更 注重 于 对 查询 日 志 的 分 析 。 

Luhn (1958) 开始 了 自动 文摘 的 最 初 研究 工作 ，Goldstein 等 (1999) 描述 了 较 新 的 基于 
句子 选择 自动 文摘 的 研究 工作 。 与 之 相对 应 ，Berger 和 Mittal (2000) 的 研究 是 基于 文档 的 统 
计 模 型 生成 文摘 ，Sun 等 (2005) R TAP AERA. Clarker$ Wy 3H (2007) 


曲 ”这 个 会 议 是 从 Information Retrieval in Context 研 讨 会 发 展 而 来 ， 在 互联 网 上 可 以 找到 会 议 的 议程 。 
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和 Turpin 等 的 文章 (2007) 则 集中 研究 页 面 摘要 的 自动 生成 。 

Feng% (2007) 对 于 竞价 搜索 的 相关 事项 进行 了 总 体 综述 。Metzler 等 (2007) 和 Jones 等 
(2006) 讨论 了 将 查询 匹配 到 较 短 广告 文本 的 一 些 具体 技术 。 对 于 内 容 关 联 广 告 (在 浏览 网 页 
时 提供 广告 ) 一 些 问 题 的 讨论 以 及 从 网 页 中 选择 具体 关键 词 的 技术 ， 可 以 参见 Yih 等 (2006), 

正如 前 面 提 到 的 ， 用 于 检索 结果 的 一 些 可 视 化 技术 已 经 提出 多 年 了 ， 我 们 在 本 书 中 略 掉 
了 这 方面 的 大 部 分 内 容 。Hearst (1999) 对 这 些 技术 给 予 了 细致 的 综述 ，Leouski 和 Croft 
(1996) 率先 提出 了 检索 结果 聚 类 的 评测 技术 。Hearst 和 Pedersen (1996) 显示 了 这 种 技术 的 潜 
在 益处 ，Zamir 和 Etzioni (1999) 强调 了 结果 聚 类 的 重要 性 ， 能 够 方便 用 户 理 解 检索 结果 并 且 
更 容易 对 结果 加 以 标记 。Lawrie 和 Croft (2003) 讨论 了 对 于 检索 结果 建立 县 次 化 摘要 的 技术 。 
Zeng 等 (2004) 着 重 于 从 检索 结果 中 选择 短语 作为 聚 类 的 依据 。 在 Hearst (2006) 中 ， 讨 论 
了 聚 类 方法 和 和 逐 面 分 类 法 的 相应 优点 和 缺点 。 

更 普遍 的 情况 是 ， 整 个 HCI (Human-Computer Interaction) 9 领域 中 的 研究 人 员 都 在 关注 
信息 系统 界面 的 设计 和 评价 。Shneiderman 等 (1998) 是 这 类 研究 的 一 个 例子 ，Marchionini 
(2006) 对 于 搜索 界面 的 交互 性 (Interactive) 或 探索 性 (exploratory) 方面 的 重要 性 进行 了 
很 好 的 综述 。 

跨 语 言 搜 索 已 经 在 TREC (Voorhees 和 Harman，2005) 和 欧洲 评测 会 议 CLEFS 上 展开 了 
多 年 的 研究 。 这 个 研究 领域 的 第 一 个 论文 集 是 Grefenstette(1998)。 在 一 些 文章 中 ,讨论 了 具 
体 的 CLIR 系 统 上 的 相关 研究 问题 ， 如 音译 (AbdulJaleel 和 Larkey，2003)。Manning 和 Schiitze 
(1999) 及 Jurafsky 和 Martin (2006) 对 统计 机 器 翻译 模型 进行 了 综述 。 

最 后 ， 在 信息 科学 文献 中 ， 有 大 量 的 研究 工作 探讨 了 人 们 在 搜索 引擎 上 实际 的 交互 过 程 
和 搜索 行为 ， 这 些 研 究 是 对 本 章 中 介绍 的 面向 系统 方法 的 补充 ， 也 是 理解 搜索 信息 与 相关 过 
程 的 重要 部 分 。 美 国信 息 科学 与 技术 期 刊 (Journal of the American society of information 
science and technology, JASIST) 是 这 类 文章 的 一 个 很 好 资源 。Ingwersen 和 Jirvelin (2005) 
从 计算 机 科学 和 信息 科学 的 不 同 视 角 对 于 搜索 领域 进行 了 有 趣 的 比较 。 


练习 


6.1 用 本 书 网 址 中 提供 的 Wikipedia 文 档 集 ， 根 据 下 列 步 又 创建 一 个 词 干 群集 (stem clusters), 
1) 索引 文档 集 〈 不 进行 词 干 提取 ) 。 
2) 取出 在 索引 中 按 字母 顺序 的 前 1000 个 词 。 
3) 通过 对 这 1000 个 词 进行 词 干 提取 创建 词 干 类 别 ， 并 且 记 录 哪 些 词 具 有 相同 的 词 干 。 
4) 计算 在 每 个 词 干 类 别 中 每 对 词 之 间 的 关联 度 (采用 戴 斯 系数 )， 根 据 在 文档 中 的 共 现 
进行 计算 。 
5) 通过 限定 关联 度 阔 值 创建 词 干 群集 ,根据 计算 后 相互 关联 的 所 有 词 项 构成 这 个 词 干 
和 群集。 
比较 本 题 中 的 词 干 群集 和 词 干 类 别 中 词 项 数量 和 质量 (根据 你 的 观点 )。 
6.2 根据 噪声 通道 模型 编写 一 个 拼写 校正 程序 。 采 用 单个 词 的 语言 模型 ， 在 错误 模型 中 具有 
相同 编辑 距离 的 所 有 错误 设 定 为 相同 的 概率 。 仅 考虑 编辑 距离 为 1 或 2 的 情况 。 要 求 你 自 


O ”有 时 也 简称 为 CHI。 
© http://clef isti.cnr.it/. 
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6.3 


6.4 


6.5 


6.6 


6.7 


6.8 
6.9 





己 实现 计算 编辑 距离 的 程序 ( 样 例 代码 很 容易 在 互联 网 上 找到 )。 

为 Galago 搜 索引 擎 实现 一 个 简单 的 伪 相 关 反 馈 算法 。 给 出 用 你 的 算法 进行 查询 扩展 的 样 
例 ， 并 简 述 你 的 方法 的 成 功 之 处 及 存在 的 问题 。 

假设 有 一 个 包含 地 理 名 称 的 地 名 集 ， 设 计 一 个 算法 ， 检 测 出 查询 中 的 地 名 或 位 置 名 称 ，。 
展示 出 你 的 算法 对 于 哪些 类 型 的 查询 是 有 效 的 ， 以 及 对 于 哪些 查询 你 的 算法 将 会 失效 。 
描述 在 Galago 中 的 页 面 摘要 生产 算法 。 这 个 算法 对 于 只 有 很 少 文本 内 容 的 页 面 是 否 也 有 
效 ? 详细 描述 你 将 怎样 改善 这 个 算法 。 

选择 一 个 商业 搜索 引擎 ， 你 认为 在 其 竞价 搜索 中 的 广告 是 如 何 与 查询 相 匹 配 的 ， 举 出 例 
子 证 明 你 的 想法 。 对 于 在 网 页 中 显示 的 广告 ， 也 进行 同样 的 分 析 。 

实现 一 个 根据 排序 靠 前 的 页 面 中 选择 短语 进行 检索 结果 聚 类 的 简单 算法 。 任 何 具有 两 个 
词 的 词 序列 都 可 以 考虑 作为 短语 。 你 的 方法 应 该 考虑 在 检索 结果 中 的 短语 频率 、 文 档 集 
中 的 短语 频率 ， 以 及 与 短语 相关 联 的 簇 之 间 的 重 登 程度 。 

找到 采用 逐 面 分 类 法 的 4 个 不 同类 型 的 网 站 ， 并 用 具体 样 例 描述 它们 。 

给 出 5 个 你 认为 网 页 翻译 效果 很 差 的 例子 。 你 认为 翻译 效果 不 好 的 原因 是 什么 ? 


第 7 章 检索 模型 


“没有 一 定 会 怎样 ， 只 有 可 能 会 怎样 。” 
— V (RR 威 明 ),《V 字 仇杀 队 》 


7.1 检索 模型 概述 


在 过 去 45 年 的 信息 检索 研究 中 ， 一 个 主要 的 目标 就 是 要 理解 和 形式 化 人 们 判定 一 段 文 本 
和 所 需 信息 是 否 相 关 的 过 程 。 为 了 形成 完整 的 理解 ， 可 能 需要 理解 语言 是 如 何 表示 的 以 及 是 
如 何 被 人 脑 处 理 的 。 我 们 距离 这 种 目标 还 有 相当 的 距离 。 然 而 ， 我 们 能 够 提出 关于 相关 性 的 
数学 检索 模型 ， 并 且 通 过 比较 模型 和 人 类 行为 来 验证 这 些 理论 。 好 的 模型 应 该 在 相关 性 上 产 
生 和 人 类 决策 非常 相关 的 结果 。 换 句 话说， 基于 好 的 检索 模型 的 排序 算法 ， 能 够 在 排序 结果 
的 顶部 返回 相关 的 文档 (具有 较 高 的 有 效 性 )。 

那么 ， 这 些 模型 取得 了 哪些 成 功 呢 ” 举 个 例子 ， 在 TREC 测 试 数据 集 上 针对 通用 搜索 的 排 
序 算法 ,已 经 在 上 个 世纪 90 年 代 提高 了 100% 的 效果 。 这 些 在 效果 上 的 改变 相应 地 改进 了 关联 
检索 模型 。 在 过 去 的 10 年 中 ， 网 络 搜索 的 效果 同时 也 得 到 了 实质 性 的 提高 。 在 TREC 数 据 集 上 
的 实验 中 ， 最 有 效 的 排序 算法 来 自 于 被 明确 定义 好 的 检索 模型 。 在 商用 网 络 搜索 引擎 中 ， 所 
使 用 的 检索 模型 不 是 很 清楚 ， 但 是 毫 无 疑问 的 是 ， 它 们 的 排序 算法 都 依赖 于 坚实 的 数学 基础 。 

在 没有 检索 模型 的 情况 下 ,通过 实验 ， 也 可 以 开发 出 排序 算法 。 但 是 ， 直 接 使 用 检索 模 
型 被 广泛 证 明 是 最 好 的 方法 。 像 所 有 的 数学 模型 那样 ， 检 索 模型 提供 了 定义 新 的 任务 和 解释 
假设 的 框架 。 当 采用 排序 算法 测试 时 ， 检 索 模型 提供 了 比 暴 力 方法 (尝试 所 有 可 能 ) 更 有 效 
的 测试 结构 。 

在 本 章 的 讨论 中 不 能 忽视 一 个 客观 事实 ， 那 就 是 相关 性 是 一 个 复杂 的 概念 。 让 人 解释 为 
什么 一 篇 文档 比 另 外 一 第 更 相关 ， 是 非常 困难 的 。 同 样 ， 当 要 求人 们 判断 对 给 定 的 检索 词 与 
一 些 文档 的 相关 性 时 ， 他 们 往往 都 不 会 同意 这 样 做 。 信 息 论 方面 的 科学 家 已 经 撰写 了 很 多 关 
于 相关 性 本 质 的 专著 ， 但 是 这 里 不 会 涉及 这 些 材 料 。 取 而 代 之 ， 会 讨论 相关 性 的 两 个 核心 方 
面 ， 这 两 个 方面 对 检索 模型 和 评价 机 制 都 非常 重要 。 

第 一 个 方面 就 是 在 1.1 节 提 到 过 的 主题 相关 和 用 户 相关 的 差异 性 。 一 篇 文档 如 果 被 判定 和 
一 个 查询 是 同一 个 主题 ， 那 么 它们 是 主题 相关 的 。 换 句 话说， 查询 和 文档 是 关于 同一 件 事情 
的 。 一 个 包含 亚伯拉罕 林肯 传记 的 网 页 肯定 和 查询 “亚伯拉罕 : 林肯 ”主题 相关 ， 同 时 也 
会 和 查询 “美国 总 统 ” 以 及 “美国 内 战 ” 主 题 相关 。 用 户 相关 性 考虑 用 户 在 判定 相关 性 时 涉 
及 的 所 有 因素 。 这 些 因素 可 能 包括 文档 的 年 代 、 语 言 、 目 标 受 众 、 新 疾 性 等 。 例 如 ， 一 篇 包 
含 所 有 美国 总 统 的 列表 文档 ， 对 于 检索 词 “ 亚 伯 拉 罕 : 林肯 ”是 主题 相关 的 ， 但 是 不 会 被 认 
为 和 想 要 检索 林肯 生平 信息 的 用 户 相 关 。 所 有 的 检索 模型 都 不 能 在 用 户 相关 性 中 融合 全 部 的 
额外 因素 ， 但 是 有 些 模型 会 考虑 这 些 因 素 。 

关于 相关 性 ， 考 虑 的 第 二 个 方面 就 是 相关 性 是 二 元 的 还 是 多 元 的 。 二 元 相关 性 就 是 简单 
地 判定 一 篇 文档 是 相关 的 还 是 非 相 关 的 。 显 然 ， 有 些 文档 明显 不 如 其 他 文档 相关 ， 但 是 与 那 


MERE 143 


些 和 主题 一 点 关系 都 设 有 的 文档 相 比 ， 具 有 更 好 的 相关 性 。 例 如 ， 还 是 考虑 包含 美国 所 有 总 
统 的 列表 文档 ， 它 和 林肯 传记 不 是 那么 主题 相关 的 ， 但 是 肯定 比 林肯 汽车 的 广告 要 更 加 相关 
一 些 。 基 于 这 种 观察 ,一 些 检索 模型 和 评价 方法 显 式 地 确定 相关 性 为 多 元 变量 。 当 人 们 被 要 
求 判断 相关 性 时 ， 多 个 层次 的 相关 性 对 于 评价 肯定 是 重要 的 。 三 个 层次 的 相关 性 (相关 的 、 
非 相 关 的 、 不 确定 的 ) 已 经 证 明 会 使 得 判断 更 加 容易 。 但 是 在 各 种 检索 模型 中 ， 多 层次 相关 
性 的 优势 并 不 明显 。 因 为 ， 绝 大 多 数 的 排序 模型 都 将 相关 性 按照 概率 进行 计算 ， 这 也 就 涵盖 
了 不 确定 相关 的 类 型 。 

近年 来 ， 人们 提出 了 很 多 检索 模型 。 其 中 两 种 最 早 的 模型 分 别 是 布尔 模型 和 向 量 空间 模 
型 。 虽 然 这 些 模型 能 在 很 大 程度 上 由 概率 方法 取代 ， 但 是 还 是 经 常 在 讨论 信息 检索 时 被 提 到 ， 
所 以 在 深入 介绍 其 他 模型 前 ， 先 简要 介绍 一 下 它们 。 


7.1.1 布尔 检索 


布尔 检索 模型 被 用 在 最 早 的 搜索 引擎 中 并 沿用 至 今 。 它 又 称 为 精确 匹配 检索 ， 因 为 被 检 
索 到 的 文档 都 能 够 精确 匹配 检索 需求 的 ， 不 满足 的 文档 都 不 会 被 检索 到 。 虽 然 这 是 一 个 排序 
中 非常 简单 的 形式 ， 但 是 布尔 检索 并 没有 被 一 般 地 描述 为 一 个 排序 算法 。 这 是 因为 布尔 检索 
模型 假设 在 检索 到 的 集合 中 ， 所 有 文档 关于 相关 性 都 是 等 价 的 ， 同 时 也 假设 了 相关 性 是 二 元 
的 。 布 尔 这 个 名 称 来 自 以 下 事实 ， 在 检索 评价 里 只 有 两 种 输出 结果 (TRUE 和 FALSE)， 并 且 
查询 项 往往 被 描述 为 布尔 逻辑 操作 符 (AND、OR、NOT)。 正 如 第 6 章 所 述 ， 邻 近 运 算 操 作 符 
和 通配符 也 经 常用 在 布尔 查询 项 中 。 正 则 表达 式 命 令 中 的 搜索 ， 例 如 grep ， 就 是 另外 一 种 精 
确 匹 配 的 例子 。 

布尔 检索 有 很 多 优点 。 这 个 模型 的 结果 很 容易 推断 并 且 容 易 向 用 户 解释 的 。 布 尔 查 询 项 
的 运算 域 可 以 是 任何 文档 特征 ， 而 不 只 是 词语 ， 所 以 可 能 直接 在 检索 规范 中 融 人 元 数据 ， 例 
如 文档 日 期 或 者 文档 类 型 。 从 实现 的 角度 来 看 ， 布 尔 检索 往往 比 排序 检索 更 有 效 ， 因 为 文档 
可 以 在 打分 过 程 中 快速 地 剔除 。 

除了 这 些 正 面 因素 ， 这 种 方法 主要 的 缺点 是 效率 完全 依赖 于 用 户 。 由 于 缺少 复杂 的 排序 
算法 ， 简 单 的 查询 项 不 能 很 好 地 工作 。 包 含 特定 检索 词 的 所 有 文档 都 会 被 检索 到 ， 并 且 这 个 
检索 到 的 集合 会 被 按照 某 种 和 相关 性 几乎 没有 关系 的 顺序 展现 给 用 户 ， 例 如 文档 的 发 表 日 期 。 
可 以 通过 构建 复杂 的 查询 项 来 减少 大 部 分 相关 文档 的 范围 ， 但 是 这 是 一 件 很 难 的 事情 ， 需 要 
专业 的 知识 和 经 验 。 由 于 形式 化 查询 项 很 难 ， 一 种 名 叫 搜索 中 介 (最 后 一 章 中 有 介绍 ) 的 用 
户 随 着 布尔 搜索 系统 而 出 现 。 中 介 的 任务 是 将 用 户 的 信息 需求 转换 为 特定 搜索 引擎 的 复杂 布 
尔 查询 项 。 这 种 中 介 至 今 仍然 存在 于 一 些 特 定 领 域 ， 例 如 水 律 办 公 室 。 但 是 ， 现 代 搜 索引 人 擎 
的 简单 和 有 效 性 ， 使 得 绝 大 多 数 用 户 都 能 进行 自己 的 搜索 。 

作为 布尔 检索 形式 的 一 个 例子 ， 针 对 索引 了 一 组 新 闻 故 事 数据 集 的 搜索 引擎 ， 考 虑 下 面 
的 查询 项 。 简 单 的 查询 项 

林肯 
会 返回 大 量 包含 林肯 汽车 的 文档 以 及 关于 林肯 总 统 人 名 的 故事 。 不 管 “林肯 ”这 个 词 出 现 多 
少 次 ， 也 不 管 这 个 词 的 上 下 文 是 什么 ， 所 有 这 些 文档 根据 布尔 检索 模型 的 排序 性 质 都 是 等 价 
的 。 因 此 ， 用 户 可 能 尝试 通过 下 面 的 查询 项 来 缩小 范围 : 

总 统 AND 林 肯 
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这 个 查询 项 会 返回 一 组 同时 包含 这 两 个 查询 词 的 文档 ， 不 管 这 些 词语 在 文档 中 什么 位 置 上 出 
现 。 如 果 其 中 很 多 故事 包含 对 福特 汽车 公司 和 林肯 汽车 的 管理 ， 这 些 文档 也 会 作为 关于 林肯 
总 统 的 故事 出 现在 返回 集合 中 。 例 如 ; 


福特 汽车 公司 今天 宣布 Darryl Hazel 会 接替 Brian Kelley 担 任 林 肯 水 星 品 牌 的 总 A ( 译 
者 注 : 总 裁 和 总 统 英文 都 是 President) 。 


如 果 有 太 多 这 种 类 型 的 文档 被 检索 到 ， 用 户 可 以 通过 使 用 NOT 操 作 符 来 剔除 关于 汽车 的 文档 ， 
例如 : 

总 统 AND 林 肯 AND NOT (汽车 OR 轿车 ) 

这 会 剔除 掉 那 些 不 管 在 任何 位 置 包含 “汽车 ”或 “轿车 ”的 文档 。 一 般 说 来 ，NOT 操 作 符 会 
在 剔除 非 相关 文档 的 同时 剔除 过 多 相关 文档 ， 这 种 方式 不 推荐 使 用 。 例 如 ， 在 网 页 搜索 “总 
统 林肯 ”时 ， 返 回 的 排序 最 靠 前 的 文档 是 一 个 包含 下 面 句 子 的 传记 ， 

林肯 的 遗体 伴随 着 一 趟 九 节 车 厢 的 形 匡 火车 离开 华盛顿 。 

在 查询 项 中 使 用 NOT (汽车 OR 轿车 ) 会 噜 除 掉 这 个 文档 。 如 果 返 回 的 集合 仍然 很 天， 用 户 可 
以 通过 在 查询 项 中 增加 会 出 现在 传记 中 的 词语 来 进一步 缩小 检索 范围 

总 统 AND 林肯 AND 传记 AND 生活 AND 出 生地 AND 盖 茨 堡 AND NOT (汽车 OR 轿车 ) 
遗憾 的 是 ， 在 布尔 搜索 引擎 中 ， 在 查询 项 中 通过 AND 操 作 符 使 用 过 多 的 搜索 词 项 ， 往 往 会 使 
检索 结果 为 空 。 为 了 避免 这 种 情况 ， 用 户 可 能 尝试 OR 操 作 符 作为 替代 ， 

总 统 AND 林肯 AND (传记 OR 生活 OR 出 生地 ORE KE) AND NOT (汽车 OR $F) 

这 会 返回 任何 同时 包含 “总 统 ” 和 “林肯 ”的 文档 ， 同 时 包含 词汇 “传记 ”、 “生活 ”、 “出生 
地 ”或 者 “ 盖 获 堡 ”中 的 任何 一 个 〈 还 不 能 包含 “汽车 ”或 者 “轿车 ”) 。 

经 过 这 些 步 骤 ， 拥 有 了 一 个 合理 的 能 够 返回 一 组 相关 文档 的 查询 项 。 但 是 仍然 不 能 确定 
哪些 词汇 是 更 加 重要 的 ， 也 不 能 确定 拥有 更 多 的 相关 词汇 就 会 更 好 。 例 如 ， 包 含 下 面 文字 的 
文档 被 一 个 网 页 搜索 引 警 (使 用 了 词语 重要 性 度量 ) 排序 为 500: 

总 统 的 一 天 -假日 活动 -技工 ， 迷 宫 ， 词 语 搜 索 ，…… “华盛顿 的 一 生 ” 在 线 阅读 整 本 书 ! 亚伯拉罕. 林肯 研究 网 …… 
一 个 布尔 检索 系统 不 能 对 这 个 文档 和 另外 一 个 被 网 页 搜索 引擎 排序 为 499 的 文档 进行 任何 区 
别 。 或 者 ， 这 个 文档 会 作为 检索 结果 的 第 一 个 文档 。 

构建 查询 项 的 过 程 侧重 于 检索 结果 集合 的 大 小 ， 这 个 过 程 被 称 为 数量 检索 ， 并 导致 了 
布尔 检索 模型 的 瓶颈 。 为 了 突破 这 些 限制 ， 研 究 人 员 开 发 了 结合 排序 的 模型 ， 例 如 向 量 空 
间 模 型 。 

7.1.2 向 量 空间 模型 

向 量 空间 模型 是 上 世纪 60 ~ 70 年 代 绝 大 多 数 信息 检索 研究 的 基础 ， 使 用 这 个 模型 的 论文 
也 不 断 出 现在 各 种 会 议 中 。 这 个 模型 由 于 简单 、 直 观 而 很 引 和 人 注目， 实现 的 框架 便于 进行 词 
项 加 权 、 排 序 和 相关 反馈 等 工作 。 从 历史 来 看 介绍 这 些 概念 非常 重要 ， 这 些 有 效 的 技术 已 经 
经 过 多 年 的 实验 论证 。 但 是 ， 作 为 一 个 检索 模型 ， 它 也 有 一 些 缺 点 。 虽 然 提 供 了 方便 的 计算 
框架 ， 但 是 它 对 于 加 权 和 排序 算法 如 何 影响 相关 性 ， 只 提供 了 很 少 的 详细 说 明 。 

模型 中 ， 文 档 和 检索 词 都 被 假设 是 一 个 ! 维 向 量 空间 的 一 部 分 ， 其 中 人 是 索引 词 项 (词语 、 
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词 干 、 短 语 等 ) 的 个 数 。 一 篇 文档 D 表 示 为 索引 词 项 的 一 个 向 量 : 

D, = (das di,,…, dy) 
其 中 di 表示 第 j 个 词 项 的 权 值 。 一 个 包含 个 文档 的 数据 集 ， 可 以 表示 为 一 个 词 项 权 值 的 矩阵 
(如 下 所 示 )， 其 中 每 一 行 表示 一 篇 文档 ， 每 一 列表 示 对 应 文档 在 相关 词 项 上 的 权 值 大 小 。 


文档 ， di d U dy 
文档 dz dy, a dy, 
文档 。 dn dy dy 


图 7-1 给 出 了 一 个 采用 向 量 表示 四 个 文档 的 简单 例子 。 这 个 词 项 -文档 矩阵 已 经 被 转 置 ， 所 
以 现在 词 项 对 应 行 向 量 ， 文 档 对 应 列 向 量 。 词 项 的 权 值 通过 简单 地 计算 在 文档 中 的 出 现 次 数 
获得 。 在 这 个 例子 中 ， 停 用 词 设 有 被 索引 ， 所 有 词语 都 被 词 形 还 原 了 。 例 如 ， 文 档 刀 ;表示 为 
向 量 (1,1,0,2,0,1,0,1,0,0,1), 





D, Tropical Freshwater Aquarium Fish. 

Dz Tropical Fish, Aquarium Care, Tank Setup. 

Ds Keeping Tropical Fish and Goldfish in Aquariums, 
and Fish Bowls. 

D4 The Tropical Tank Homepage - Tropical Fish and 
Aquariums. 


Terms Documents 
D; 


2 
g 
A 


aquarium 
bowl 

care 

fish 
freshwater 
goldfish 
homepage 
keep 
setup 

tank 
tropical 


H 








Poooooppoop 
ppprpoooopporps 
Hooroprovor 
DpOOPOOPOOP 


图 7-1 四 篇 文档 组 成 的 数据 集 的 词 项 -文档 和 矩阵 


查询 项 采用 与 文档 相同 的 方式 表示 ， 即 查询 项 @ 表 示 为 有 :个 权 值 的 向 量 : 
Q = (qi,4,,……,4,) 


其 中 9 是 查询 项 中 第 /个 词 项 的 权 值 。 例 如 ， 查 询 项 是 “tropical fish”， 采 用 图 7-1 的 向 量 表示 ， 
这 个 查询 项 的 结果 是 (0, 0, 0, 1, 0, 0, 0, 0,0,0, 1)。 向 量 空间 模型 的 一 个 吸引 人 的 方面 是 ， 可 
以 采用 简单 的 图 形 来 对 文档 和 查询 项 进行 可 视 化 。 它 们 一 般 会 在 一 个 三 维 图 片 中 表示 为 点 和 
向 量 ， 如 图 7-2 所 示 。 虽 然 这 样 可 视 化 有 利于 教学 ， 但 是 会 导致 错误 地 认为 三 维 空间 能 够 应 用 
到 真实 的 高 维 文档 空间 中 。 请 记 住 ， 这 里 的 :个 词 项 表示 所 有 被 索引 的 文档 特征 。 在 企业 的 网 
络 应 用 中 ， 这 会 对 应 成 百 上 千 或 者 上 百 万 个 维度 。 
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基于 这 种 表示 ,文档 可 以 通过 计算 表示 文档 和 查询 的 点 之 间 的 距离 来 进行 排序 。 通 常 使 
用 相似 度 度量 (而 不 是 距离 度量 或 者 不 相似 度 度量 ) 
的 方法 ， 得 分 最 高 的 文档 被 认为 和 查询 具有 最 高 的 
相似 度 。 为 此 ， 已 经 有 很 多 相似 度 函 数 先后 被 提出 
和 测试 。 其 中 最 成 功 的 就 是 余弦 相似 度 度量 方法 。 
余弦 相关 性 度量 是 指 查询 项 和 文档 分 别 对 应 的 向 量 S 
形成 夹 角 的 余弦 值 。 当 所 有 向 量 都 被 归 -- 化 后 ， 所 

有 文档 和 查询 项 都 会 被 表示 为 长 度 相等 的 向 量 ， 两 


文档 1 


一 一 一 一 一 一 一 一 一 一 一 一 一 





查询 


个 完全 相同 的 向 量 夹 角 的 余弦 值 为 ! (角度 为 0) ， /Hm O > 
两 个 完全 没有 公共 词 项 的 向 量 的 夹 角 的 余弦 值 为 0。 g KA 
余弦 相关 性 的 定义 如 下 : & / 
t d 
DE M 
cos(D,, Q) = 一 一 一 一 图 7-2 文档 和 查询 的 向 量 表示 
DB 


这 个 度量 方法 的 分 子 是 查询 项 和 文档 所 有 匹配 词 项 对 应 权 值 的 乘积 之 和 (也 叫 点 积 或 者 内 积 ) 。 
分 母 通过 除 以 两 个 向 量 长 度 的 乘积 来 归 一 化 分 子 。 现 在 还 不 能 从 理论 上 解释 为 什么 余弦 相关 
性 比 其 他 相似 度 度量 方法 要 好 ， 但 是 在 搜索 质量 的 评价 上 ， 它 就 是 要 表现 得 好 一 些 。 

举 一 个 例子 ， 考 虑 被 三 个 词 项 索引 的 两 个 文档 Di=(0.3, 0.8, 0.3) 和 D2=(0.9, 0.4, 0.2), Hep 
的 数字 表示 词 项 权重 。 假 设 查询 项 为 C=(1.5, 1.0, 0) 已 被 同样 的 词 项 索引 ， 那 么 这 两 个 文档 的 
余弦 度量 值 为 ; 


(0.5x1.5)+ (0.8x1.0) 
(0.5? +0.8? +0.3?)(1.5? + 1.07) 
o 155 ogy 
]@98x325) 
(0.9 x1.5) +(0.4x 1.0) 
cost, @)= (0.9? +0.4? +0.27)(1.5? +1.02) 
-一 -097 
0X555 
第 二 篇 文档 得 分 较 高 ， 因 为 它 的 第 一 个 词 项 权 值 较 高 ， 而 且 这 个 词 项 在 查询 项 里 面 也 有 和 较 高 
权 值 。 这 个 简单 的 例子 ， 说 明基 于 向 量 空间 模型 的 排序 能 够 反映 词 项 的 重要 性 ， 以 及 匹配 上 
的 词 项 的 个 数 。 这 一 点 在 布尔 检索 中 是 不 可 能 的 。 
在 这 里 的 讨论 中 ， 还 没有 介绍 任何 关于 向 量 空间 模型 中 词 项 权 值 的 形式 。 事 实 上 ， 这 人 么 
多 年 来 ， 许 多 不 同 的 加 权 方 法 都 已 经 被 尝试 过 。 其 中 绝 大 多 数 都 是 第 2 章 介 绍 的 tf.idf 加 权 方 法 
的 变形 。# 宕 示 文档 中 词 项 的 频率 ， 反 上 映 了 一 个 词 项 在 文档 D， (或 查询 项 ) 中 的 重要 性 。 这 个 
频率 通常 都 是 通过 词 项 在 文档 中 的 出 现 次 数 归 一 化 后 得 到 ， 例 如 








cos(D,, Q)= 
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fy = 


六 


其 中 壤 是 文档 D 中 词 项 k 的 词 项 频率 ，f 是 词 项 k 在 文档 中 的 出 现 次 数 。 在 向 量 空间 模型 中 ， 归 
一 化 是 余弦 度量 的 一 部 分 。 一 个 文档 数据 集 能 够 包含 许多 不 同 长 度 的 文档 。 虽 然 归 一 化 是 为 
了 减 小 这 种 情况 的 影响 ， 但 是 长 文档 中 很 多 词 项 都 只 出 现 一 次 ， 而 其 他 词 项 都 出 现成 百 上 千 
次 。 实 验 表 明 ， 为 了 减 小 这 种 高 频 词 项 的 影响 ， 通 过 对 词 项 次 数 夏 取 对 数 ， 会 比 直接 使 用 原 
始 数值 会 更 加 有 效 。 

倒置 文档 频率 (idf) 反映 了 文档 数据 集中 词 项 的 重要 性 。 如 果 在 其 中 出 现 过 一 个 词 项 的 
文档 越 多 ， 这 个 词 项 在 文档 之 间 就 越 没 有 区 分 性 ， 也 就 对 检索 越 没 有 用 。 这 个 权 值 的 典型 形 
AATF ` 


idf, = log% 
ny, 


其 中 idf 是 词 项 的 倒置 文档 频率 , N 是 文档 数据 集中 文档 的 个 数 , ne ia] ALL A CRY RL. 
虽然 权 值 的 这 种 形式 是 从 直觉 和 经 验 演变 出 来 的 ， 但 是 在 信息 论 (Robertson, 2004) 中 ， 有 
证 据 表明 idf 度量 就 是 词 项 具有 的 信息 量 。 

两 种 权 值 的 影响 通过 相 乘 结合 起 来 〈 即 所 谓 的 太 igf) 。 之 所 以 采用 这 种 结合 方式 ， 更 多 的 
是 根据 经 验 。 基 于 此 ， 向 量 空间 模型 中 ， 典 型 的 文档 词 项 权 值 的 形式 为 ， 
(log(f,) +1) -log(N/n,) 


> [dog(f;,) +1.0)-log(N/n,)? 
=l . 





dy = 





查询 项 中 的 词 项 权 值 的 形式 本 质 上 是 一 样 的 。 词 项 频率 加 1 是 为 了 保证 频率 为 1 的 词 项 具有 非 
零 权 值 。 在 这 个 模型 中 需要 注意 的 是 ， 词 项 权 值 只 针对 出 现在 文档 (或 查询 项 ) 中 的 词 项 进 
行 。 考 虑 到 余弦 度量 的 归 一 化 已 经 融合 到 权 值 计算 中 ， 一 个 文档 的 分 值 可 以 简单 地 通过 将 文 
档 向 量 和 查询 向 量 求 点 积 获 得 。 
虽然 在 向 量 空间 模型 中 没有 关于 相关 性 的 显 式 定 义 ， 但 是 一 个 隐 含 的 假设 就 是 相关 性 是 
和 查询 项 向 量 与 文档 向 量 的 相似 度 有 关联 的 。 换 句 话说 ， 和 查询 项 “ 越 接近 ”的 文档 就 越 相 
关 。 虽 然 与 用 户 相 关 性 的 相关 特征 能 够 融合 到 向 量 表示 中 ， 但 是 这 个 模型 主要 是 服务 于 主题 
相关 性 的 。 现 在 没有 任何 关于 相关 性 是 二 值 或 者 多 值 的 假设 。 
在 最 后 一 章 ， 会 讨论 相关 反馈 。 这 是 一 种 根据 用 户 判 定 的 相关 文档 来 修改 查询 项 的 技术 。 
这 种 技术 最 早 被 应 用 到 向 量 空间 模型 中 。 著 名 的 Rocchio 算 法 (Rocchio, 1971) 是 基于 最 佳 查 
询 的 算法 。 这 个 算法 会 使 得 相关 文档 向 量 的 平均 向 量 和 非 相 关 文 档 向 量 的 平均 向 量 之 间 的 差 
异 最 大 化 。 在 获得 有 限 的 相关 信息 的 情况 下 ，Rocchio 算 法 通常 (也 是 有 效 的 ) 修改 查询 向 量 
2 的 初始 权 值 ， 生 成 一 个 新 的 查询 2 
qj =q; = Pen 34- P Nowa, dy 


onrel 


其 中 4 是 查询 词 项 j 的 初始 权 值 ，Re! 是 用 户 选 定 的 相关 文档 集合 ，Nonre! 是 非 相 关 文 档 集合 ， 
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返回 一 个 集合 的 大 小 ，dy 是 文档 i 中 第 个 词 项 的 权 值 ，a、B 和 7 是 控制 每 个 部 分 影响 的 参数 。 
前 人 的 研究 证 明 ， 非 相关 文档 集合 最 好 近似 为 所 有 没 见 过 的 文档 ( 即 所 有 不 相关 文档 )， 并 且 
对 于 参数 a、pB 和 Y， 合 理 的 数值 分 别 为 8、16、4。 

这 个 公式 通过 加 上 一 个 基于 相关 文档 的 平均 权 值 并 减 去 一 个 基于 非 相 关 文 档 的 平均 权 值 
来 修改 查询 项 。 查 询 词 项 中 ， 具 有 负数 权 值 的 都 被 剔除 了 。 这 种 处 理会 产生 一 个 更 长 的 或 者 扩 
展 的 查询 项 。 因 为 在 相关 文档 中 频繁 出 现 但 是 没有 在 原始 查询 项 中 出 现 的 词 项 ， 会 被 添加 上 
( 即 它们 会 在 修改 后 的 查询 项 中 具有 大 于 0 的 权 值 )。 为 了 限制 扩展 词 项 的 数量 ， 在 相关 文档 对 
应 的 最 高 平均 权 值 的 词 项 中 ， 一 般 只 允许 添加 一 个 确定 数目 (例如 50) 的 词 项 到 查询 项 中 。 


7.2 概率 模型 


检索 模型 的 特点 之 一 ， 就 是 应 该 针对 模型 的 假设 提供 一 个 基于 假设 基础 的 清晰 说 明 。 布 
尔 模 型 和 向 量 空间 模型 都 对 相关 性 和 文本 表示 采用 了 隐 含 的 假设 ， 并 影响 到 了 排序 算法 的 设 
计 和 效果 。 理 想 的 情况 应 该 在 给 定 假 设 后 ， 基 于 排序 算法 的 检索 模型 能 够 超过 其 他 任何 方法 
的 性 能 。 这 种 证 明 对 于 信息 检索 事实 上 是 非常 困难 的 。 因 为 尝试 描述 的 是 复杂 的 人 类 活动 。 
检索 模型 的 验证 一 般 都 是 经 验 性 的 ， 不 能 是 理论 性 的 。 

一 个 早期 的 关于 有 效 性 的 理论 说 明 ， 也 就 是 人 们 所 知道 的 概率 排序 原则 (Robertson, 
1977/1997)。 这 个 原则 推动 了 概率 检索 模型 的 发 展 ， 并 使 概率 模型 成 为 目前 的 主流 。 这 些 模 
型 之 所 以 取得 这 样 的 地 位 ， 是 因为 概率 论 为 表示 和 操纵 信息 检索 过 程 中 固有 部 分 的 不 确定 性 
提供 了 坚实 的 基础 。 概 率 排序 原则 的 原始 表述 如 下 : 


如 末 一 个 参考 检索 系统 对 每 个 查询 的 反馈 都 是 数据 集中 所 有 文档 根据 和 用 户 查询 的 
相关 性 概率 值 降序 排序 的 结果 ， 并 且 其 中 的 概率 值 都 被 尽 可 能 精确 地 估计 出 来 ， 那 
么 该 系统 对 于 其 用 户 的 整体 效果 就 是 基于 这 些 数据 能 够 获得 的 最 好 结果 。 


基于 一 些 假设 ， 例 如 一 篇 文档 对 于 一 个 查询 的 相关 性 独立 于 其 他 文档 ， 就 可 能 证 明 这 段 
陈述 是 正确 的 。 从 这 种 意义 上 来 说 ， 根 据 相 关 性 概率 的 排序 会 在 任何 给 定 排序 上 (例如 取 排 
序 最 靠 前 的 10 个 文档 ) 使 精确 率 〈 即 相关 文档 的 比例 ) 最 大 化 。 遗 憾 的 是 ， 概 率 排序 原则 并 
没有 告诉 如 何 计算 或 者 估计 相关 性 的 概率 值 。 现 在 有 很 多 种 概率 检索 模型 ， 每 种 模型 都 提出 
了 不 同 的 方法 来 估计 这 种 概率 值 。 本 章 余下 的 章节 基本 上 都 在 讨论 一 些 最 重要 的 概率 模型 。 

本 节 从 一 个 将 信息 检索 看 成 分 类 问题 的 简单 的 概率 模型 开始 ， 随 后 介绍 一 个 基于 这 个 模 
型 的 流行 而 且 有 效 的 排序 算法 。 

7.2.1 将 信息 检索 作为 分 类 问题 

任何 将 相关 性 假设 为 二 元 的 检索 模型 中 ， 对 每 个 查询 都 会 有 两 组 文档 : 相关 文档 集合 和 
非 相 关 文档 集合 。 给 定 一 个 新 的 文档 ， 搜 索引 擎 的 任务 可 以 描述 为 判断 这 个 文档 是 否 属于 相 
关 和 集合 或 者 非 相关 集合 。 也 就 是 说 ， 系 统 应 该 判断 文档 是 相关 的 还 是 非 相关 的 ， 如 果 相 关 
就 返回 文档 。 

采用 某 种 方法 来 计算 相关 文档 的 概率 以 及 非 相 关 文档 的 概率 ， 随 后 就 能 看 似 合理 地 将 具 


日 “参考 检索 系统 ”现在 应 该 叫做 搜索 引 柚 。 
全 ”注意 ， 在 信息 检索 中 ， 我 们 绝 没 有 谈论 “无 关 紧 要 的 ”文档 ， 而 是 谈论 “ 非 相 关 的 ”。 
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有 最 高 概率 的 文档 进行 划分 。 换 句 话说 ， 当 PCRID) > P(NRID) 时 ， 判 定 文档 D 是 相关 的 ， 基 中 
P(RID) 是 相关 性 的 条 件 概率 ，PCNRID) 是 非 相 关 性 的 条 件 概 率 (如 图 7-3 所 示 )。 这 就 是 著名 的 
贝 叶 斯 决策 法 则 ， 能 够 采用 这 种 方式 进行 分 类 的 系统 称 为 贝 叶 斯 分 类 器 。 


og?) 相关 文档 


PNRID) 


inthe plain 
piain — 





非 相 关 文档 


图 7-3 判断 一 个 文档 是 相关 的 还 是 非 相 关 的 


在 第 9 章 中 会 讨论 分 类 的 其 他 应 用 (例如 垃圾 过 滤 ) 以 及 其 他 的 分 类 技术 ， 但 是 这 里 专注 
于 基于 分 类 概率 检索 模型 的 排序 算 东 。 

当前 面临 的 问题 是 如 何 计算 这 些 概率 。 作 为 开始 ， 先 看 P(RID)。 还 不 请 楚 如 何 能 够 计算 
它 ， 但 是 给 定 相 关 集 合 的 信息 ， 应 该 能 够 计算 PLDIR)。 例 如 ， 如 果 知 道 在 相关 集合 中 一 些 特 
定 词汇 是 如 何 出 现 的 ， 那 么 给 定 一 个 新 的 文档 ， 可 以 通过 相对 直接 地 计算 这 个 文档 中 词汇 的 
出 现 情况 来 进行 计算 。 假 设 词语 “总 统 ” 在 相关 文档 中 的 概率 为 0.02,“ 林 肯 ” 的 概率 为 0.03。 
如 果 新 文档 包括 这 两 个 词语 ， 那 么 假设 这 两 个 词语 的 出 现 是 相互 独立 的 ， 并 可 以 说 观察 到 的 
相关 文档 中 ， 词 语 整体 出 现 的 概率 为 0.02 x 0.03 = 0.00069 。 

那么 ， 如 何 通 过 计算 PCDIR) 来 获得 相关 性 的 概率 呢 ? 事实 上 ，P(RID) 和 PCDIR) 之 间 的 关系 
可 以 表示 为 贝 叶 斯 法 则 有 ， 
P(DI R)P(R) 


P(R|D)= PD) 


其 中 P(R) 是 相关 性 的 先 验 概率 ( 换 甸 话说， 就 是 任何 文档 是 相关 的 可 能 性 )，P(D) 起 到 了 归 一 
化 常数 的 作用 。 基 于 此 ， 能 够 将 决策 规则 采用 如 下 方式 表达 : 如果 P(DIR)P(R) > P(DINR) 
P(NR)， 则 判定 文档 是 相关 的 。 这 和 判定 一 篇 文档 相关 的 如 下 条 件 是 一 致 的 : 

P(DIR) P(NR) 

P(DINR) PCR) 


AKADRD RAMA, EMKSHORAS, HRN, ASA HE IC 


属于 哪个 类 别 ， 以 便 采 取 恰 当 的 行动 。 对 于 信息 检索 ， 搜 索引 擎 只 需要 排序 文档 ， 而 不 用 做 
出 分 类 判断 (分 类 是 困难 的 )。 如 果 采 用 似 然 比 率 作为 分 值 ， 排 序 较 高 的 是 那些 对 于 属于 相关 











O ”给 定 两 个 事件 4 和 8B， 联合 概 率 P(4 几 B) 是 两 个 事件 共同 出 现 的 概率 。 一 般 地 ，P(4 1B) = P(4IB)P(B)。 如 果 
4 和 8B 相互 独 立 的 ， 那 么 有 P(4 门 8) = P(A4)P(B)。 
O ”这 条 法 则 是 根据 英国 数学 家 托马斯 - 贝 叶 斯 命名 的 。 
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集合 具有 较 高 似 然 值 的 文档 。 

为 了 计算 文档 的 得 分 ， 仍 然 需要 判断 如 何 利用 PLDIR) 和 PLDINR) 的 结果 。 最 简单 的 方法 就 
是 采用 前 面 例子 中 的 假设 ， 即 将 文档 表示 为 词 项 的 组 合 ， 相 关 和 集合 和 非 相 关 和 集合 表示 为 词 项 
概率 。 在 这 个 模型 中 ,文档 表示 为 一 组 二 元 向 量 特 征 ，D=(di, dn …, d')， 其 中 d=1 表 示 词 项 i 
出 现在 文档 中 ， 反 之 为 0。 其 他 主要 的 假设 是 词 项 独立 性 (也 叫做 村 素 贝 叶 斯 假设 )。 这 意味 
着 能 够 通过 单独 词 项 的 概率 乘积 [[-，P(alR) 来 估计 PCDIR) (类 似 地 可 以 计算 PCDINR))。 由 于 
假设 词 项 独立 以 及 文档 中 的 二 元 特征 ， 因 此 这 个 模型 又 称 为 二 元 独立 模型 。 

文本 中 的 词语 显然 不 是 独立 出 现 的 。 如 果 词 语 “Microsoft” 在 文档 中 出 现 ， 那 么 
“Windows” 也 很 可 能 会 出 现 。 但 是 ， 词 项 独立 是 一 个 普通 的 假设 ， 因 为 它 往往 能 够 简化 模型 
中 的 数学 计算 。 人 允许 词 项 依赖 的 模型 会 在 本 章 后 续 部 分 讨论 。 

回顾 一 下 ， 这 个 模型 中 的 文档 是 一 组 0、1 值 的 向 量 ，1 表 示 出 现 ，0 表 示 不 出 现 。 例 如 ， 
如 果 有 五 个 索引 词 项 ， 一 篇 文档 可 能 表示 为 (1, 0, 0, 1, 1)， 意 味 着 文档 包含 词 项 1、4、5。 为 
了 计算 这 个 文档 在 相关 集合 中 出 现 的 概率 ， 需 要 词 项 在 相关 集合 中 是 1 或 者 0 的 概率 。 如 果 p, 是 
词 项 ;在 相关 集合 的 某 篇 文档 中 出 现 (出 现 为 1) 的 概率 ， 那 么 样 例文 档 在 相关 集合 中 出 现 的 
概率 为 P; x (1 一 p2) x (1 一 p3) x pa x ps。 概 率 (1 一 p) 表 示 相 关 集 合 中 词 项 2 不 出 现 的 概率 。 对 于 非 
相关 和 集合， 使 用 s 来 表示 词 项 出现 的 概率 9。 

再 回 到 似 然 比 ， 使 用 pj 和 si 可 以 获得 如 下 分 值 


PDIR) yop: 771-2, 
PCDI NR) [ls bi-s, 





其 中 [Lu 表示 文档 中 值 是 1 的 词 项 概率 的 连 乘 。 现 在 能 够 做 如 下 一 些 数学 推导 : 


忆 1-s3i . 1-p,\_ 1- p, 
lls (Ld 1-p; 4+ i-s,] fa, 1-8; 
= pl s;) | l- p, 
lsa-s) i 1-5, 

第 二 个 连 乘 覆 盖 所 有 词 项 ， 也 能 覆盖 所 有 文档 ， 所 以 对 于 排序 能 够 忽略 掉 。 由 于 连 乘 了 

很 多 较 小 的 数值 ， 会 导致 结果 的 精度 问题 ， 对 乘积 使 用 等 价 的 取 对 数 操作 ， 即 得 分 函数 变 为 ; 
1 pi(1— s;) 
之 °g 5,0. — p;) 

你 可 能 会 想 ， 这 是 一 个 根据 特定 查询 的 文档 排序 算法 ， 但 是 查询 项 到 哪里 去 了 。 很 多 时 
候 ， 查 询 项 只 提供 了 相关 和 集合 的 信息 。 可 以 假设 ， 在 其 他 信息 存在 的 基础 上 ， 查 询 项 中 那个 
没有 出 现 的 词 项 对 于 相关 文档 和 非 相关 文档 具有 相同 的 出 现 概率 ( 即 pP=s*)。 也 就 是 说 ， 给 定 
一 个 查询 ， 文 档 的 分 值 可 以 简单 地 将 匹配 到 的 词 项 概率 求 和 即 可 。 

如 果 设 有 相关 集合 的 其 他 信息 ， 可 以 额外 假设 P 是 一 个 常数 ，8 可 以 被 近似 估计 为 整个 文 
档 数据 集中 的 词 项 出 现 情况 。 做 出 第 二 个 假设 是 基于 这 样 的 事实 ， 即 相关 文档 的 数量 远 小 于 
整体 文档 集合 的 大 小 。 在 前 面 介 绍 的 分 值 方程 中 ， 设 定 pi 的 值 为 0.5， 给 定 词 项 ;的 权 值 为 


日 ”在 许多 关于 这 个 模型 的 描述 中 ，p; 和 gq, 用 来 表示 这 些 概率 。 这 里 我 们 使 用 s; 来 避免 与 表示 查询 词 项 的 q, 混 淆 
在 一 起 。 
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o.s(1-™) 
\ N) = log =”: 


log 元 
wd ~0.5). n; 
其 中 nj 是 包含 词 项 的 文档 数目 ,NN 是 整个 数据 集中 文档 的 数目 。 在 存在 相关 文档 信息 的 基础 上 ， 
这 说 明 从 二 元 独立 模型 衍生 出 来 的 词 项 权 值 和 idf 权 值 非常 相似 。 这 里 没有 术 权 值 ， 因 为 文档 
已 经 被 假设 成 具有 二 元 特征 了 。 
如 果 知 道 相 关 集 合 和 非 相 关 集 合 中 词 项 的 出 现 情况 ， 就 可 以 采用 联 立 表 来 进行 概括 ， 如 
表 7-1 所 示 。 这 种 信息 可 以 通过 用 户 在 初始 排序 中 识别 相关 文档 得 到 的 相关 反馈 来 获得 。 在 这 
个 表 中 ， 7 是 包含 词 项 ;的 相关 文档 数量 ， "是 包含 辣 项 的 文 冰 数量 ，N 是 整个 文档 数据 集中 所 
有 文档 的 数量 ，R 是 和 这 个 查询 相关 的 文档 数量 。 


表 7-1 一 个 特定 查询 的 词 项 出 现 情况 的 联 立 表 





相关 非 相 关 总 数 
d=1 r; nr; Ti 
d=0 R-r; N-n R+r; N-n; 
Total R N-R N 





给 定 这 个 表格 ， 明 显 地 估计 2p 和 8 可 以 是 pFmR (包含 词 项 的 相关 文档 数量 除 以 全 部 相关 文 
档 的 数量 )，s=(njr)/AN 一 R) (包含 词 项 的 非 相关 文档 数量 除 以 全 部 非 相关 文档 的 数量 ) 。 但 是 ， 
采用 这 种 估计 会 带 来 一 种 问题 。 那 就 是 如 果 联 立 表 中 的 一 些 数据 为 0， 那 么 词 项 权 值 会 是 log0。 
为 了 避免 这 种 情况 ， 一 个 标准 的 解决 方案 是 在 每 个 数值 上 加 0.5 (整体 数值 上 加 1)， 这 样 使 得 新 
的 估计 为 p=(n+r0.5WGCR+D 和 5(nrrrtH0SJWCV-R+10)。 将 这 些 估 计 放 人 整体 的 得 分 函数 ， 得 到 ; 
lo (r, + 0.5) /(R - r, +0.5) 
>. (n — 1, +0.5)/(N —n, - R+7,+0.5) 


虽然 这 个 文档 得 分 只 是 将 查询 项 中 匹配 上 的 词 项 权 值 累加 起 来 ， 但 是 在 相关 反馈 中 ， 查 
询 项 可 以 扩展 到 包含 相关 集合 的 其 他 重要 词 项 。 注 意 ， 如 果 没 有 任何 相关 信息 ， 可 以 设 定 r 和 
R 为 0， 这 会 使 p; 为 0.5， 并 得 到 前 面 讨 论 过 的 像 idf 那样 的 词 项 权 值 。 

那么 ， 这 个 文档 函数 在 用 于 排序 时 有 多 好 呢 ? 事实 证 明 ， 不 是 非常 好 。 虽 然 它 提 供 了 融 
合 相 关 信 息 的 方法 ， 但 是 在 大 多 数 情况 下 ， 并 没有 这 些 信息 ， 只 能 使 用 类 似 于 idf 权 值 的 词 项 
权 值 。tf 部 分 的 存在 ， 对 排序 的 性 能 有 显著 的 作用 。 在 排序 时 如 果 没 有 这 种 信息 ， 绝 大 多 数 的 
有 效 度量 方法 都 会 下 降 50%。 也 就 是 说 ， 各 果 使 用 二 元 独立 模型 排序 代替 最 好 的 fidf 排 序 ， 
将 会 在 排序 结果 的 最 佳 部 分 少 看 到 50% 的 相关 文档 。 

但 是 ， 事 实 上 二 元 独立 模型 是 最 有 效 和 流行 的 排序 算法 之 一 ( 称 为 BM28 ) 的 基础 模型 。 
7.2.2 BM25 排 序 算法 

BM25 模 型 通过 加 入 文档 权 值 和 查询 项 权 值 ， 拓 展 了 二 元 独立 模型 的 得 分 函数 。 这 种 拓展 

日 ”我 们 使 用 “估计 ”这 个 词语 来 表示 使 用 例如 联 立 表 等 数据 来 计算 概率 值 ， 这 是 因为 这 个 数值 仅仅 是 对 真实 

概率 值 的 估计 ， 如 果 有 更 多 的 数据 ， 这 个 值 会 发 生变 化 。 


© BM 是 最 佳 匹配 (Best Match) 的 缩写 ，25 只 是 Robertson 和 他 的 同事 在 保持 权 值 变化 时 的 一 种 数值 规定 
(Robertson & Walker, 1994), 
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是 基于 概率 论 和 实验 验证 的 ， 并 不 是 一 个 正式 的 模型 。 

BM25 在 TREC 检 索 实 验 上 表现 非常 好 ， 而 且 对 包括 网 页 搜索 引擎 在 内 的 商业 搜索 引擎 中 

的 排序 算法 影响 很 大 。 现 在 BM25 的 得 分 函数 有 很 多 种 变形 ， 但 是 最 普通 的 形式 如 下 ， 

J os (7, +0.5)/(R- r, +0.5) ADA (k, + Daf, 

4 (n; -7,+0.5)(N-n,-R+r,+05) K+f k taf, 
其 中 求 和 公式 覆盖 查询 项 中 的 所 有 词 项 ，N、R、n;、r; 和 上 一 节 的 描述 一 致 ， 额 外 的 条 件 是 ， 
如 果 没 有 相关 信息 ， 那 么 r- 和 R 都 被 置 为 0，f; 是 词 项 ;在 文档 中 的 频率 ，4qf; 是 词 项 ;在 查询 项 中 
的 频率 ，Kk!、k 扩 、K 都 是 经 验 设 定 的 参数 。 

常量 决定 大 增加 时 丰 部 分 的 词 项 权 值 如 何 变化 。 如 果 司 =0， 那 么 词 项 频率 部 分 将 被 忽略 ， 
只 有 词 项 的 存在 与 否 会 有 所 影响 。 如 果 后 很 大 ， 那 么 词 项 权重 部 分 会 随 着 六 线性 增长 E 
TREC 的 实验 中 ，k 的 典型 值 是 1.2。 这 使 得 f 的 非 线性 影响 是 很 大 的 。 这 和 7.1.2 节 中 讨论 过 的 
词 项 权重 中 的 logf 的 作用 类 似 。 这 意味 着 ,一 个 词 项 在 出 现 三 到 四 次 后 ， 后 继 的 出 现 只 有 很 
小 的 影响 。 常 量 局 在 查询 项 权重 中 具有 类 似 的 作用 。 这 个 参数 典型 的 数值 范围 是 0 到 1000， 也 
就 是 说 ， 系 统 性 能 对 k, 的 敏感 性 不 如 k,。 这 是 因为 查询 词 项 的 频率 非常 低 ， 并 且 比 文档 词 项 频 
率 变化 小 。 

KK 是 一 个 更 加 复杂 的 参数 ， 用 来 利用 文档 长 度 归 一 化 # 因子。 具体 地 
2 \ 

avdl) 
其 中 ，5 是 一 个 参数 ，dl 是 文档 长 度 ，avdl 是 数据 集中 文档 的 平均 长 度 。 常 量 b 控 制 长 度 归 一 化 
的 影响 ， 其 中 b=0 对 应 于 没有 长 度 归 一 化 ，b=1 表 示 完 全 的 归 一 化 。 在 TREC 实 验 中 ，b=0.75 被 
证 明 是 有 效 的 。 

举 一 个 计算 的 例子 ， 考 虚 一 个 包含 两 个 词 项 (“总 统 ” 和 “林肯 ”) 的 查询 ， 每 个 词 项 在 
查询 中 仅 出 现 一 次 (g 庆 1) 。 考 虑 典型 的 情形 ， 即 没有 相关 信息 (r 和 R 都 是 0)。 假 设 正在 搜索 
一 个 含有 500 000 (N) 个 文档 的 数据 集 ， 在 这 个 集合 中 “总 统 ” 出 现在 40000 个 文档 中 (n= 
40 000),“ 林 肯 ” 出 现在 300 个 文档 中 (ns=300)。 在 评分 的 这 个 文档 (关于 林肯 总 统 ) 中 ， 

- 总统” 出现 15 次 (f=15),“ 林 肯 ” 出 现 25 次 (f=25)。 文 档 长 度 只 有 平均 长 度 的 90% 
(dl/lavd1=0.9)。 相 关 参 数 使 用 k=1.2、b=0.75、k=100。 基 于 这 些 数 据 ，K=1.2 - (0.2540.75 - 
0.9)=1.11， 最 终 的 文档 得 分 如 下 : 


BM25(Q,D) = log 


K=k,{(1—b) +b 


(0 + 0.5)/(0 -0+0.5) 
(40 000 — 0 + 0.5) /(500 000 — 40 000 -0 +0 + 0.5) 
G24 DIS 100+! 
1.11+15 10041 
(0 +0.5)/(0 -0 +0.5) 
(300 - 0 + 0.5) (500 000 — 300 - 0 +0 + 0.5) 
(2+125 _ (100+ D1 
111=25 10041 
= log 460 000.5/ 40 000.5-33/16.11-101/101 
+ log 499 700.5/300.5-55/26.11-101/101 
= 2.44.2.05.1+7.42.2.11.1 
= 5.00 +15.66 = 20.66 


+ log 
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注意 ， 在 没有 相关 信息 时 ， 权 值 的 第 一 部 分 的 影响 几乎 和 idrf 权 值 一 样 〈( 正 如 7.2.1 节 介绍 
的 那样 )。 因 为 词 项 “林肯 ”在 文档 数据 集中 只 有 很 小 的 频率 ， 它 具有 较 高 的 id 数值 (7.42 对 
比 于 2.44) 。 表 7-2 给 出 了 不 同 词 项 出 现 次 数 的 分 值 。 这 说 明 词 项 “林肯 ”的 重要 性 ， 即 使 只 出 
现 一 次 也 使 得 分 值 发 生 重 大 变化 。 将 词 项 出 现 次 数 从 25 或 者 15 减 小 到 1， 对 最 终结 果 影 响 并 不 
大 。 这 个 例子 同时 也 说 明 ， 一 个 包含 很 多 次 出 现 的 单独 词 项 的 文档 ， 会 比 同时 包含 两 个 查询 
词 项 的 文档 获得 更 高 的 分 数 。 


表 7-2 样 例文 档 的 BM25 分 值 





“总 统 ”的 频率 “林肯 ”的 频率 BM25 分 数 
15 25 20.66 
15 1 、 12.74 
15 0 5.00 
1 25 18.2 
0 25 15.66 





这 个 得 分 的 计算 看 似 繁琐 ， 但 是 记 住 一 点 ， 在 处 理 任 何 查询 之 前 ， 词 项 权 值 的 一 些 计算 
已 经 出 现在 索引 阶段 。 如 果 没 有 相关 信息 ， 计 算 一 个 文档 的 得 分 只 是 简单 地 包括 加 入 查询 项 
中 匹配 上 的 词 项 的 权重 ， 如 果 查 询 词 项 多 次 出 现 ( 即 9 户 1)， 则 会 有 一 些 较 小 的 额外 计算 。 另 
外 一 点 是 ，BM25 排 序 算 法 中 的 参数 可 以 针对 每 种 应 用 进行 调节 (例如 调整 使 得 达到 最 佳 的 性 
能 ) 。 调 节 参 数 的 过 程 会 在 7.7 节 以 及 第 8 章 中 进一步 描述 。 

小 结 一 下 ，BM25 模 型 是 从 将 信息 检索 视 为 分 类 问题 的 模型 中 演化 出 来 的 一 种 有 效 的 排序 
算法 。 这 个 模型 关注 于 主题 相关 ， 并 且 显 式 地 假设 相关 性 是 二 元 的 。 在 下 一 节 中 ， 会 讨论 另 
外 一 种 概率 模型 。 这 种 模型 能 够 直接 融合 词 项 频率 ， 而 不 是 通过 扩展 增加 的 方式 来 提高 性 能 。 


7.3 基于 排序 的 语言 模型 


语言 模型 在 很 多 语言 技术 中 被 用 来 表示 文本 ， 例 如 语音 识别 、 机 器 翻译 、 手 写 体 识别 等 。 
最 简单 的 语言 模型 是 一 元 语言 模型 ， 也 就 是 语言 中 词汇 的 概率 分 布 。 这 意味 着 语言 模型 是 文 
本 集合 的 索引 词 表 中 每 个 词语 的 出 现 概率 。 例 如 ， 如 果 文 档 数据 集中 只 包含 五 个 不 同 的 词语 ， 
这 个 集合 一 个 可 能 的 语言 模型 是 (0.2, 0.1, 0.35, 0.25, 0.1) ， 其 中 每 个 数值 表示 词语 出 现 的 概 
率 。 如 果 将 每 个 文档 看 成 是 启 汇 的 一 个 序列 ， 那 么 语言 模型 的 概率 就 是 预测 序列 中 下 一 个 词语 
的 概率 。 例 如 ， 如 果 语 言 中 的 五 个 词汇 分 别 是 “ 猫 *"、 “该 "、 “男孩 "、“ 触 摸 ”"， 那 么 可 以 预测 
的 下 一 个 词汇 的 概率 是 这 些 词 语 的 概率 之 一 。 这 些 词 语 履 盖 了 所 有 的 可 能 性 ， 所 以 概率 的 总 和 
为 1。 由 于 是 一 元 模型 ， 前 一 个 词语 对 预测 没有 任何 影响 。 例 如 ， 在 这 个 模型 下 ， 可 能 会 得 到 
序列 “女孩 猫 ”( 概 率 0.2 x 01) 和 序列 “女孩 触摸 ”( 概 率 0.2 x 0.1) 同样 的 可 能 性 。 

在 语音 识别 等 应 用 中 ，n 元 语言 模型 使 用 更 长 序列 来 预测 词语 。 一 个 n 元 模型 预测 词语 时 
考察 前 面 的 n 一 1 个 词语 。 最 普通 的 n 元 模型 是 二 元 模型 (使 用 前 一 个 词语 来 预测 ) 和 三 元 模 
型 《从 所 前 面 荫 个 词语 来 预测 ) 。 虽 然 二 元 模型 在 信息 检索 中 用 来 表示 两 个 词语 的 短语 ( 见 
4.3.5 节 ) ， 但 会 集中 讨论 一 元 模型 ， 因 为 它 更 加 简单 而 且 被 证 明 作 为 排序 算法 的 基础 是 非常 
有 效 的 。 

对 于 检索 的 应 用 ， 使 用 语言 模型 来 表示 一 篇 文档 的 话题 内 容 。 话 题 这 个 概念 经 常 被 提 到 ， 
但 是 却 很 少 在 信息 检索 讨论 中 被 定义 过 。 在 这 个 方法 中 定义 一 个 话题 就 是 词汇 上 的 一 个 概率 
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分 布 〈 换 名 话说， 就 是 语言 模型 ) 。 例 如 ， 如 果 是 一 篇 关于 在 阿拉 斯 加 钓鱼 的 文档 ， 我 们 希望 
看 到 在 语言 模型 中 ， 关 于 钓鱼 和 阿拉 斯 加 地 点 的 词汇 具有 高 的 概率 值 。 如 果 是 关于 在 佛 罗 里 
达 钓 鱼 的 文档 ， 一 些 高 概率 的 词语 会 是 一 样 的 ， 但 是 会 有 一 些 关于 佛罗里达 地 点 的 词汇 具有 
高 的 概率 值 。 换 个 情况 ， 如 果 文 档 是 关于 钓鱼 的 电脑 游戏 ， 虽 然 会 有 很 多 关于 钓鱼 的 词汇 ， 
但 是 绝 大 多 数 的 高 概率 词汇 会 和 游戏 厂商 以 及 计算 机 操作 相关 。 注 意 ， 话 题 语言 模型 ， 简 称 
为 话题 模型 ， 包 括 了 所 有 词汇 的 概率 ， 而 不 仅仅 是 最 重要 的 那些 。 绝 大 多 数 的 词汇 会 具有 上 默 
认 的 概率 ， 这 种 概率 对 于 任何 文本 都 会 是 一 样 的 ， 但 是 对 话题 很 重要 的 词汇 会 具有 异常 高 的 
概率 值 。 

表示 文档 的 语言 模型 可 以 被 用 来 通过 根据 概率 分 布 随机 采样 词汇 来 “生成 ”新 的 文档 。 
如 果 假 设 语言 模型 是 一 个 装 满 词 语 的 桶 ， 其 中 的 概率 值 决 定 同 种 词语 的 实例 个 数 ， 那 么 生成 
文档 的 方式 可 以 通过 伸手 到 桶 中 〈 不 能 看 ) 拿 出 一 个 词语 并 写 下 来 ， 然 后 把 词语 放 回 到 桶 中 ， 
然后 再 取 。 注 意 ， 并 没有 说 能 够 通过 这 种 过 程 生成 原始 文档 。 事 实 上 ， 由 于 只 用 了 一 元 模型 ， 
生成 的 文本 将 会 因为 没有 任何 句法 结构 而 非常 的 糟糕 。 但 是 与 文档 主题 相关 的 重要 词汇 经 常 
出 现 。 直 觉 上 ， 使 用 语言 模型 可 以 很 好 地 近似 作者 在 撰写 文档 时 构思 的 主题 。 

当 文 本 被 看 成 是 一 个 词语 的 有 穷 序 列 模型 时 ， 序 列 中 的 每 个 点 都 有 可 能 是 1 种 不 同 的 词语 ， 
这 就 能 对 应 到 词汇 上 的 多 项 式 分 布 。 虽 然 有 很 多 其 他 替代 ， 但 多 项 式 语言 模型 在 信息 检索 中 
是 最 普通 的 9S。 已 经 有 人 指出 ， 多 项 式 模型 的 一 个 不 足 是 ， 不 能 很 好 地 描述 爆发 性 ， 即 如 果 
观察 到 一 个 词语 “从 桶 中 被 取出 ” ， 那 么 它 会 倾向 于 被 重复 取出 。 

将 文档 表示 为 语言 模型 后 ， 同 样 能 够 将 查询 的 主题 表示 为 语言 模型 。 这 种 情况 下 ， 语 言 
模型 是 主题 的 一 种 表示 。 这 种 主题 是 搜索 信息 的 人 在 写 下 查询 时 头脑 中 所 想 的 内 容 。 这 就 导 
致 了 三 种 基于 语言 模型 的 检索 概率 值 : 一 种 是 基于 从 文档 语言 模型 生成 查询 文本 的 概率 ;一 种 
是 基于 从 查询 项 语言 模型 生成 文档 文本 的 概率 ;一 种 是 基于 对 比 查询 项 语言 模型 和 文档 主题 语 
言 模型 的 结果 。 在 后 续 的 两 个 小 节 中 ， 会 更 加 详细 地 描述 这 些 检索 模型 。 

7.3.1 查询 项 似 然 排 下 . 

在 查询 项 似 然 检 索 模 型 中 ， 根 据 文档 语言 模型 生成 查询 文本 的 概率 来 对 文档 排序 。 换 句 
话说 ， 计 算 能 够 从 表示 文档 的 “ 桶 ”中 取出 查询 项 词语 的 概率 。 这 是 一 个 主题 相关 模型 ， 因 
为 查询 项 的 生成 概率 是 文档 在 同样 话题 上 和 查询 项 的 接近 程度 的 度量 。 

一 般 地 ， 从 一 个 查询 项 开始 ， 可 以 通过 计算 P(DIQ) 来 对 文档 排序 。 根 据 贝 叶 斯 法 则 ， 计 
算 如 下 : 





p(DIQ)'= P(QID)P(D) 


其 中 ， 符 号 "2 正如 前 面 所 述 ， 表 示 右 侧 部 分 和 左 侧 部 分 是 排序 等 价 的 〈 因 此 ， 可 以 忽略 
掉 归 一 化 因子 P(Q))，P(D) 是 文档 的 先 验 概率 ，P(QID) 是 给 定 文档 后 查询 的 似 然 函 数 。 绝 大 多 
数 情况 下 ，P(D) 都 被 假设 是 始终 如 一 的 (对 所 有 文档 者 一样);- 施 避 不 会 影响 到 排序 结果 。 被 
赋予 非 一 致 先 验 概率 (例如 文档 日 期 或 者 文档 长 度 ) 的 模型 在 一 些 应 用 中 是 很 丰 后 所， 但 是 
这 里 只 假设 简单 的 一 致 先 验 概率 。 基 于 这 种 假设 ， 检 索 模型 通过 P(QID) 来 排序 文档 ， 这 个 概 
率 值 可 以 采用 文档 一 元 语言 模型 来 计算 ， 如 下 所 示 


O 在 第 9 章 的 分 类 部 分 讨论 多 项 式 模型 。 
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P(QID)= [Pa 1D) 


其 中 gq 是 查询 项 中 的 词 ， 查 询 项 中 有 nn 个 词语 。 
为 了 计算 这 个 分 值 ， 需 要 估计 语言 模型 概率 值 P(alZP)。 明 显 的 估计 如 下 


fap 
IDI 





P(q|D) = 


其 中 ,jsip 是 词语 gq, 在 文档 集合 D 中 出 现 的 次 数 ，IDI 表 示 D 中 词语 的 数量 。 对 于 多 项 式 分 布 ， 这 
是 一 个 极 大 似 然 估 计 ， 也 就 是 说 会 将 观察 值 fip 最 大 化 。 这 个 估计 的 主要 问题 是 ， 如 果 查 询 项 
中 任何 一 个 词语 没有 在 文档 中 出 现 的 话 ， 那 么 查询 似 然 模 型 给 P(QID) 的 分 值 都 会 是 0。 显 然 这 
不 适用 于 较 长 的 查询 。 例 如 ， 查 询 中 有 6 个 词 项 ， 如 果 只 有 一 个 词 项 设 在 文档 中 出 现 的 话 ， 
P(CID) 以 分 值 不 应 为 0。 这 同样 也 不 能 区 别 那 些 缺 少 查 询 项 不 同 数目 词语 的 文档 。 另 外 ， 由 于 
是 为 一 篇 文档 建立 一 个 主题 模型 ， 具 体 主 题 的 相关 词汇 即使 不 会 在 文档 中 出 现 ， 也 需要 具有 
一 定 的 出 现 概率 。 例 如 ， 一 个 关于 电脑 游戏 文档 的 语言 模型 ， 即 使 “RPG” 这 个 词语 不 会 在 
文档 中 提 到 ， 也 应 该 对 该 词语 具有 非 零 概率 。 这 个 词语 的 一 个 较 小 的 概率 值 ， 可 以 使 得 文档 
对 于 查询 “RPG 电脑 游戏 ”获得 一 个 非 零 的 分 值 ， 尽 管 会 比 某 个 包含 全 部 三 个 词语 的 文档 的 
概率 值 低 一 点 。 

平滑 技术 用 于 避免 这 种 佑 计 问 题 以 及 数据 稀疏 问题 ， 这 意味 着 我 们 不 需要 使 用 大 量 文本 
来 估计 语言 模型 的 概率 。 平 滑 技术 一 般 的 方法 是 降低 (或 者 打折 ) 文档 文本 中 出 现 词语 的 估 
计 概 率 ， 并 对 文本 中 未 出 现 的 词语 赋 给 估计 的 “剩余 ”概率 。 未 出 现 词语 的 概率 通常 都 是 基 
于 整个 文档 数据 集中 词语 的 出 现 频率 来 进行 估计 的 。 如 果 P(dlC) 是 文档 集合 C 的 数据 集 语 言 
型 中 词语 i 的 出 现 概率 ， 那 么 文档 中 未 出 现 词语 的 估计 概率 为 apP(qiC)， 其 中 ap 是 控制 赋予 未 
见 词语 概率 的 系数 9。 一 般 来 说 ，ap 依 赖 于 文档 。 为 了 保证 概率 值 和 为 1， 文 档 中 一 个 出 现 过 
的 词语 的 概率 被 估计 为 (1 一 ap)P(qiD)+apP(qilC)。 

为 了 弄 清 楚 这 一 点 ， 考 虑 一 个 简单 例子 。 这 个 例子 只 包含 索引 库 中 的 三 个 词语 w、w2、 
w3。 如 果 这 三 个 词语 基于 极 大 似 然 估计 的 数据 集 概率 分 别 是 0.3、0.5、0.2， 基 于 极 大 似 然 估 
计 的 文档 概率 分 别 是 0.5、0.5、0.0， 那 么 对 于 文档 语言 模型 ， 这 个 文档 的 平滑 概率 估计 如 下 : 

P(w | D)=(1-ap)P(w, | D) + apP(w, IC) 
=(1-a,):05+a)°03 
P(w, 1D) =(1-a@p)-0.5+a,°05 
. P(w,1D)=(-a@p):0.0+0,°0.2=a,:0.2 


注意 ， 员 然 词 项 ws 没有 出 现在 文档 文本 中 ， 但 是 仍然 具有 非 零 概 率 估计 。 如 果 对 这 三 个 概率 
值 相 加 ， 可 以 得 到 
P(w, | D) + P(w, | D) + P(w; | D) =(1-&p)-(0.5+0.5) 
+@p (0.3 +0.5 + 0.2) 
=l-a)+a@p 
=1 


日 ”集合 语言 模型 概率 也 叫做 背景 模型 概率 ， 或 者 是 背景 概率 ， 
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二 





仍然 保证 概率 是 一 致 的 。 

co 赋值 的 方式 导致 不 同 的 估计 形式 。 最 简单 的 选择 就 是 设 定 为 常数 ， 即 ao= 入 。 集 合 语言 
模型 概率 估计 中 ， 估 计 词 语 gq, 的 概率 为 C/ICl， 其 中 Co 是 文档 数据 集中 查询 词 出 现 的 次 数 ，|C 
是 集合 中 所 有 词语 出 现 次 数 的 总 和 。 这 样 就 可 以 估计 P(gqiD) 如 下 : 


万。 Sa 
IDI ICI 


这 种 形式 的 平滑 称 为 Jelinek-Mercer 方 法 。 在 查询 似 然 模型 的 文档 得 分 中 替换 掉 这 个 估计 ， 可 


以 得 到 : 
Jap ,Ca 
AQ DO f(c- MDI ral 


正如 前 面 所 说 ， 由 于 连 乘 很 多 很 小 的 数值 会 导致 精确 率 的 问题 ， 可 以 使 用 取 对 数 的 方法 来 将 
这 个 得 分 转换 为 等 价 排序 求 和 ， 如 下 所 示 : 


log P(Q| D) = Yost -A) 


p(q;\D)=(1- A) 








Sap A 
IDI ICI 





入 的 较 小 值 会 导致 较 小 的 平滑 ， 并 且 查 询 会 倾向 于 变 得 更 像 布尔 操作 AND。 因 为 任何 查询 
词 的 缺失 都 会 在 本 质 上 惩罚 这 个 得 分 。 更 进一步 地 ， 极 大 似 然 估 计 得 到 的 词语 的 相关 性 权 值 
对 确定 分 值 是 重要 的 。 如 果 和 接近 1， 相 对 性 权 值 会 变 得 更 不 重要 ， 此 时 查询 会 变 得 更 像 布尔 
操作 的 OR 或 者 协调 水 平 匹 配 S。TREC 评 测 显示 ， 对 于 短 查询 接近 0.1 时 效果 较 好 ， 对 于 长 查 
询 入 接近 0.7 时 效果 较 好 。 短 查询 倾向 于 只 包含 显著 性 的 词语 ， 较 低 的 入 值 会 偏爱 包含 所 有 查询 
词 的 文档 。 在 较 长 的 查询 中 ， 缺 少 一 个 词语 的 影响 较 小 ， 较 高 的 会 更 加 强调 包含 许多 高 概率 
词语 的 文档 。 

在 这 一 点 上 ， 你 会 发 现 查 询 似 然 检索 模型 一 点 都 不 像 主 .idf 权 值 。 实 验证 明 它 只 能 达到 
BM25 排 序 算法 非常 低 的 性 能 。 但 是 ， 可 以 通过 如 下 操作 查询 似 然 得 分 来 展示 它 和 tf.idf 权 值 的 
关系 : 


Sap EZA 
IDI~ ATEI 


Sap 
= log] (1- A) 5 + 4—5 log| 和 一生 
2 P Tpit ai). oa Sa) 


oo 

















= log dee ea ti ral 
Efq; D>0 A—i- Ca; i= ICI 
Ta 
rank la-a) Jaa 
一 > lo IDI 1 
Cy. 
ifi D>0 A 
IC! 








日 ”协调 水 平 匹 配 简单 地 通过 匹配 上 查询 词 项 的 数目 来 对 文档 排序 。 
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在 第 二 行 中 ， 将 得 分 划分 到 出 现在 文档 中 的 词语 和 不 出 现 的 词语 (fp。= 0)。 在 第 三 行 ， 
在 最 后 一 项 增加 Ca 
ee 
并 且 在 第 一 项 减 去 它 〈 它 是 分 母 的 结尾 ) ， 所 以 这 里 设 有 有 效 效 应 。 对 于 所 有 文档 ， 最 后 一 项 
也 是 一 样 ， 可 以 在 排序 中 忽略 掉 。 最 终 的 表达 式 通过 对 匹配 上 的 查询 词 项 加 权 获 得 文档 的 得 
分 。 虽 然 这 个 权 值 和 tf.idf 不 完全 一 样 ， 但 明显 的 关系 是 ， 这 个 权 值 正 比 于 文档 词 项 频率 ， 并 
且 正 比 于 数据 集 频 率 。 
一 般 来 说 ， 一 种 不 同 的 更 加 有 效 的 估计 形式 ， 来 自 于 使 用 依赖 于 文档 长 度 的 变量 wp。 这 
种 方法 称 为 狄 利 克 雷 平滑 ， 这 样 命名 的 原因 后 续 会 阐述 ， 变 量 定义 如 下 
a = u 
2 1Di+u 
其 中 4 是 一 个 参数 ， 其 值 根据 经 验 设 定 。 在 (1 一 ap)P(qilD)+aQap P(gqilC) 中 替换 op， 得 到 概率 估计 


AX: 





f Ca; 
| ap tHE] 
ID = — 6E 

pla; |D) IDl+u 


这 个 公式 能 够 导致 下 面 的 文档 得 分 函数 : 


fyp + unt 
+ i 
ap Toy 


log P(OI D) = it 
og P(QID) ys Dieu 


和 Jelinek-Mercer 平 滑 方法 类 似 ， 参 数 (这 里 对 应 4) 较 小 的 数值 对 词语 的 相关 性 权 值 赋 
予 了 更 大 的 重要 性 ， 较 大 的 数值 偏向 于 匹配 上 的 词 项 数目 。 在 TREC 实 验 中 ， 能 够 达到 最 佳 效 
果 的 /的 数值 范围 在 1000 到 2000 之 间 (因为 数据 集 概率 都 非常 小 ) 。 一 般 的 ， 犹 利克 雷 平滑 比 
Jelinek-Mercer 平 滑 更 有 效 ， 尤 其 是 在 绝 大 多 数 具 有 短 查询 的 搜索 应 用 中 。 

那么 ， 狄 利克 雷 平 请 是 从 哪里 来 的 呢 ? 事实 证 明 ， 狄 利克 雷 分 布 ? 在 多 项 式 分 布 的 概率 
估计 中 考虑 先 验 知识 的 自然 方式 。 贝 叶 斯 估计 确定 估计 概率 的 过 程 就 是 基于 这 种 先 验 知识 和 
观察 文本 的 。 最 终 的 概率 估计 可 以 看 成 是 结合 了 文本 中 的 实际 词 项 计数 以 及 来 自 狄 利克 雷 分 
布 的 伪 计 数 。 如 果 没 有 文本 ， 词 项 gq; 的 概率 估计 可 以 是 iu(Cy/ICD/K4。 这 是 基于 数据 集 的 一 个 合 
理 猜 测 。 拥 有 越 多 的 文本 〈 即 更 长 的 文档 ) ， 先 验 知识 就 具有 越 小 的 影响 。 

可 以 通过 使 用 7.2.2 节 中 的 样 例 来 展示 查询 似 然 文 档 得 分 的 计算 过 程 。 两 个 查询 词 项 分 别 
是 “总 统 ” 和 “林肯 ”。 对 于 词 项 “总 统 ”，f,p = 15， 并 假设 C。 = 160000。 对 于 词 项 “林肯 ， 
fap = 2.5， 并 假设 Co, = 2400。 文 档 中 词语 出 现 的 次 数 ldl 假 设 是 1800， 文 档 数据 集中 词语 出 现 
总 的 次 数 假设 是 10”(500000 个 文档 ， 平 均 每 个 文档 2000 个 词 )。4 的 值 假设 是 2000。 给 定 这 些 
数字 ， 文 档 的 得 分 是 : 


© ”根据 德国 数学 家 Johann Peter GustavLejeune Dirichlet (这 个 姓氏 非常 罕见 ) 命名 。 
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w 
N 
ty 





15 +2000 x (1.6 x 10° /10°) 


L(Q, D)=1 
QL(Q. D)= log 1800 + 2000 
25 + 2000 x (2400 / 10°) 
+ log —— 
1800 - 2000 


= log(15.32 / 3800) + log(25.005 / 3800) 
= -5.51 + -5.02 = -10.53 


结果 是 负数 ? 这 里 谈 到 在 得 分 函数 中 对 概率 取 对 数 的 操作 ， 同 时 词语 出 现 的 概率 值 很 小 。 
重要 的 是 ， 利 用 这 些 得 分 得 到 排序 结果 的 性 能 。 表 7-3 展 示 了 表 7.2 中 用 到 的 词 项 出 现 情况 的 查 
询 似 然 得 分 。 虽 然 BM25 模 型 和 查询 似 然 的 得 分 差异 较 大 ， 但 是 排序 结果 却 是 相似 的 ， 仅 有 的 
一 个 例外 ， 就 是 包含 15 次 “总 统 ” 和 1 次 “林肯 ”的 文档 排序 ， 在 查询 似 然 上 高 于 包含 0 次 
“总 统 ” 和 25 次 “林肯 ”的 文档 ， 但 是 相反 的 情况 在 BM25 上 是 正确 的 。 


表 7-3 一 个 样 例文 档 的 查询 似 然 得 分 


“总 统 ” 的 频率 “林肯 ”的 频率 QL 分 数 
15 25 一 10.53 
15 1 一 13.75 
15 0 一 19.05 
1 25 一 12.99 
0 25 一 14.40 


总 结 一 下 ， 碍 询 似 然 是 一 种 简单 的 概率 检索 模型 ， 其 中 直接 融合 了 词 项 频率 。 词 项 权 值 的 
有 效 性 问题 更 容易 理解 而 且 由 正规 基础 的 概率 估计 取代 。 虽 然 BM25 在 绝 大 多 数 TREC 数 据 集 
上 表现 更 好 ， 但 是 基本 的 查询 似 然 得 分 结合 狄 利克 雷 平滑 后 ， 和 BM25 具 有 类 似 的 性 能 。 如 果 
用 上 基于 主题 模型 的 更 加 复杂 的 平滑 〈 在 7.6 节 进一步 描述 ) ， 那 么 查询 似 然 一 定 会 超过 BM25。 
这 说 明 ， 对 于 使 用 词语 的 集合 概率 来 替代 平滑 ， 我 们 使 用 相似 文档 中 的 词语 概率 来 替代 。 

语言 模型 框架 的 简洁 性 ， 结 合 对 多 种 检索 应 用 的 描述 能 力 以 及 相关 排序 算法 的 有 效 性 ， 
使 得 这 种 方法 对 于 基于 主题 相关 性 的 检索 模型 是 一 个 好 的 选择 。 

7.3.2 相关 性 模型 和 伪 相关 反馈 

虽然 基本 的 查询 似 然 模型 有 很 多 优点 ， 但 由 于 描述 信息 需求 和 查询 的 方式 使 它 还 是 受 限 
的 。 例 如 ， 它 很 难 将 关于 相关 文档 的 信息 融合 到 排序 算法 中 ， 而 且 难以 表达 这 样 一 个 事实 ， 
即 查询 只 是 能 够 描述 特殊 信息 需求 的 多 种 可 能 的 查询 之 一 。 在 本 节 中 会 展示 如 何 通过 扩展 这 
个 模型 来 解决 这 些 问题。 

在 7.3 节 中 提 到 可 以 将 一 个 查询 的 主题 表示 为 语言 模型 。 我 们 不 是 将 它 称 为 查询 语言 模型 ， 
而 是 使 用 相关 性 模型 这 个 名 称 ， 因 为 它 表 示 相关 文档 覆盖 的 话题 。 查 询 可 以 看 成 是 相关 性 模 
型 生成 文本 的 非常 小 的 样本 ， 相 关 文档 可 以 看 成 是 同一 模型 生成 的 文本 的 较 大 样本 。 给 定 关 
于 查询 的 一 些 相关 样 例文 档 ， 能 够 估计 相关 性 模型 中 的 概率 ， 然 后 使 用 这 个 模型 来 预测 新 文 
档 的 相关 性 。 事 实 上 ， 这 个 版 本 的 分 类 模型 在 7.2.1 节 有 所 介绍 ， 其 中 解释 PLDIR) 为 给 定 相关 
性 模型 生成 文档 中 的 文本 的 概率 。 这 个 模型 也 叫做 文档 似 然 模型 。 不 像 二 元 独立 模型 那样 
这 个 模型 虽然 直接 融合 了 词 项 频率 ， 但 是 事实 上 P(DIR) 对 比 于 跨 文档 是 难以 计算 的 。 这 是 因 
为 对 比 于 查询 ， 文 档 包含 了 非常 大 量 的 词语 变量 。 例 如 ， 考 虚 两 个 文档 D 和 DP，， 分 别 包含 5 个 
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和 500 个 词语 。 由 于 包含 词语 数量 的 巨大 差异 ， 对 于 排序 而 言 ，P(DJR) 和 PCDslR) 的 比较 会 比 
使 用 同样 查询 和 文档 平滑 表示 的 P(QID,) 和 P(QID。) 的 比较 困难 得 多 。 进 一 步 地 ， 仍 然 在 获得 相 
关 文 档 的 样 例 方面 存在 困难 。 

这 里 是 另外 一 种 方法 。 如 果 能 够 从 一 个 查询 估计 一 个 相关 性 模型 ， 那 么 就 能 将 这 个 语言 
模型 和 文档 模型 直接 进行 对 比 。 文 档 会 根据 文档 模型 和 相关 性 模型 的 相似 程度 进行 排序 。 一 
篇 文档 的 模型 如 果 和 相关 性 模型 非常 类 似 ， 那 么 这 篇 文档 可 能 是 关于 同一 主题 的 。 随 后 显然 
的 问题 就 是 如 何 比较 两 个 语言 模型 。 在 概率 论 和 信息 论 中 ， 一 个 著名 的 度量 名 叫 Kullback- 
Leibler 分 散 度 (本 书 中 简称 为 KL- 分 散 度 9)， 能 够 度量 两 个 概率 分 布 的 差异 。 给 定 真 实 的 概 
率 分 布 P 以 及 另外 一 个 用 于 估计 P 的 概率 分 布 Q@，KL- 分 散 度 定义 为 : 

P(x) 
KL(P il Q) = 之 P(x)log O(n) 
由 于 KL- 分 散 度 总 是 正 数 而且 对 于 比较 稀疏 的 分 布 数值 会 很 大 ， 使 用 取 负 的 KL- 分 散 度 来 作为 
排序 函数 的 基础 〈 即 较 小 的 差异 意味 着 较 大 的 分 值 ) 。 另 外 ，KL- 分 散 度 是 非 对 称 的 ， 这 决定 
于 选择 哪个 分 布 为 真实 分 布 。 如 果 假 设 真实 分 布 是 查询 (R) 的 相关 性 模型 ， 近 似 分 布 为 文档 
语言 模型 (D)， 那 么 负数 的 KL- 分 散 度 可 以 表示 为 : 


DP | R)log P(w| D)- J Pow | R)log P(w1 R) 





其 中 求 和 公式 是 对 整个 词 表 Y 中 的 所 有 词语 w 进 行 的 。 公 式 右 边 第 二 项 并 不 依赖 于 文档 ， 所 以 
可 以 在 排序 中 忽略 掉 。 给 定 一 个 简单 的 极 大 似 然 估计 POwlR)， 基 于 查询 文本 的 频率 (f,o) 以 
及 查询 中 词语 的 数目 (I8!)， 文档 的 得 分 计算 如 下 : 


Soo 
> il log P(w | D) 





虽然 求 和 公式 能 够 覆盖 词 表 中 的 所 有 词语 ， 但 查询 中 没有 出 现 的 词语 的 极 大 似 然 估计 值 为 0， 
而 且 不 会 对 得 分 有 任何 贡献 。 另 外 ， 具 有 频率 K 的 查询 词 对 分 值 的 贡献 为 Ex log P(wID)。 这 意 
味 着 这 个 分 数 和 前 面 章节 中 描述 的 查询 似 然 得 分 是 排序 等 价 的 。 换 句 话 说， 查询 似 然 是 检索 
模型 的 一 种 特殊 情况 ， 通 过 比较 基于 查询 的 相关 性 模型 和 文档 语言 模型 来 实现 。 

这 个 更 加 普通 的 模型 的 优点 ， 是 没有 限制 使 用 查询 词 项 频率 来 估计 相关 性 模型 。 如 果 将 
查询 词 看 成 是 相关 性 模型 的 一 种 采样 ， 那 么 基于 见 过 的 查询 词 的 新 采样 的 概率 ， 就 看 起 来 是 
合理 的 。 换 名 话说 ， 从 表示 相关 性 模型 的 “ 桶 ”中 取出 词语 的 概率 ， 必 须 依 赖 于 刚 取 出 的 “个 
查询 词语 。 更 正式 地 ， 可 以 估计 w 的 概率 为 给 定 已 经 观察 到 的 查询 词 91…4, 下 ， 观 察 到 w 的 条 
件 概率 ， 近 似 估计 如 下 : 

P(w R)~ Pl(wlg,.…9,) 


根据 定义 ， 可 以 根据 观察 到 的 w 和 查询 词 的 联合 概率 来 表示 条 件 概率 : 
P(w, qi “4,) 


PWR) ads) 
1 a 


O KLM iia BS BE. eae FERTIL. 
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P(q;… aqad — AAR, AT: 
Plaan) = X PO, qiga) 


现在 的 问题 是 ， 如 何 估计 联合 概率 P(w, 49;…9g,)。 给 定 一 组 表示 为 如 下 概率 的 文档 集合 C: 
Pw, qda) 名 PCDIPOw qia, 1D) 


也 可 以 做 出 如 下 假设 : 


Pow, qiq, 1D) = Powl D) J Pia: 1 D) 


将 这 个 表达 式 替换 掉 前 面 公式 中 的 Po, 4…4,1D)， 可 以 得 到 下 面 的 联合 估计 概率 
Per a0) = BP DPW DI [Pia 1D) 


如 何 解释 这 个 公式 呢 ?” 先 验 概率 P(D) 经 常 被 假设 为 统一 数值 ， 可 以 忽略 。 表 达 式 IT'-， PCailD) 
事实 上 是 对 文档 妈 的 查询 似 然 得 分 。 这 意 昧 着 ， 对 P(w, q1…9q;) 的 估计 是 在 一 组 文档 中 对 w 的 语 
言 模型 概率 的 权 值 的 平均 结果 ， 这 些 权 值 是 对 那些 文档 的 查询 似 然 得 分 。 

基于 相关 性 模型 的 排序 ， 实 际 上 需要 两 轮 操作 。 第 一 轮 是 利用 查询 似 然 来 排序 ， 进 而 得 
到 相关 性 模型 估计 中 需要 的 权 值 。 在 第 二 轮 中 ， 使 用 KL- 分 散 度 ， 以 通过 对 比 相关 性 模型 和 文 
档 模型 来 对 文档 进行 排序 。 注 意 ， 实 际 上 是 通过 在 查询 中 添加 词语 来 实现 对 查询 相似 文档 的 
相关 性 模型 的 平 消 。 在 基于 查询 频率 估计 的 相关 性 模型 中 ， 很 多 具有 0 概率 的 词语 现在 都 会 具 
有 非 零 概率 值 。 这 里 ， 将 明确 介绍 在 6.2.4 节 说 明 过 的 伪 相 关 反 馈 。 换 句 话说， 相关 性 模型 为 
伪 相 关 反 馈 和 查询 扩展 提供 了 一 个 正式 的 检索 模型 。 下 面 是 利用 相关 性 模型 进行 排序 的 概括 
PR 

1) 根据 对 查询 Q 的 查询 似 然 得 分 对 文档 排序 ， 

2) 选择 排序 靠 前 的 某 个 数目 的 文档 构成 集合 C， 

3) 利用 估计 概率 Pw, g1…9q)) 来 计算 相关 性 模型 概率 P(wIR)， 

4) 利用 下 面 的 KL- 分 散 度 来 对 文档 进行 再 次 排序 : 


5 P(w | R)log P(w 1 D) 


这 些 步骤 中 的 有 些 需 要 进一步 的 解释 。 在 第 1 步 和 第 4 步 中 ， 文 档 语言 模型 概率 (P(wlID)) 需 
要 采用 狄 利克 雷 平滑 方法 来 进行 估计 。 在 第 2 步 中 ， 模 型 允许 集合 C 作 为 整个 数据 集 ， 但 是 由 
于 对 估计 P(wlR) 排 序 较 低 的 文档 作用 很 小 ， 通 常 只 适用 排序 在 10~ 50 的 文档 。 这 也 使 得 计算 
P(wIR) 快 了 很 多 。 

由 于 类 似 的 原因 ， 第 4 步 的 求 和 没有 在 词 表 中 的 所 有 词语 上 进行 。 一 般 只 有 较 小 数量 
(10~25) 的 高 概率 词语 才 会 被 用 到 。 另 外 ， 原 始 查询 词语 的 重要 性 通过 在 相关 性 模型 中 结合 
原始 查询 频率 来 估计 。 这 个 估计 使 用 与 Jelinek-Mercer 相 似 的 方法 ， 即 NP(w1Q)+(1 一 和 )P(wIR)， 
其 中 人 是 混合 参数 ， 其 值 一 般 都 是 经 验 确定 的 〈 在 TREC 实 验 中 典型 的 值 是 0.5) 。 这 种 结合 使 


后 ”更 准确 地 说 ， 这 个 得 分 是 负 的 交叉 和 粒 ， 因 为 删除 了 项 Ze, PIR) log POIR). 
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得 估计 相关 性 模型 对 于 查询 扩展 和 平滑 成 为 一 个 清晰 的 过 程 。 

正如 所 有 的 检索 模型 一 样 ， 另 外 一 个 重要 的 问题 就 是 这 个 模型 结果 如 何 。 基 于 TREC 实 验 ， 
使 用 相关 性 模型 的 排序 是 最 好 的 伪 相关 反馈 技术 之 一 。 另 外 ， 相 关 性 模型 对 比 与 查询 似 然 排 
序 在 一 组 查询 上 获得 了 显著 的 性 能 改进 。 但 是 ， 像 所 有 当前 的 伪 相 关 反 馈 技术 一 样 ， 这 种 改 
进 是 不 一 致 的 ， 一 些 查询 上 会 产生 较 差 的 排序 或 者 奇怪 的 结果 。 

表 7-4 和 7-5 展 示 了 使 用 这 种 技术 在 TREC 20 世 纪 90 年 代 的 新 闻 语 料 的 一 大 组 数据 集 上 进行 
的 一 些 样 例 查 询 时 ， 采 用 相关 性 模型 估计 得 到 的 概率 最 高 的 16 个 词语 9 。 


表 7-4 四 个 样 例 查询 的 相关 性 模型 产生 的 高 概率 词 项 (采用 最 靠 前 的 10 个 文档 进行 估计 ) 




























president lincoln | abraham lincoln | fishing | tropical fish 
lincoln lincoln sh 
president america tropic 
room president japan 
bedroom faith aquarium 
house guest water 
white abraham species 
america new aquatic 
guest room fair 
serve christian china 
bed history coral 
washington public source 
old bedroom tank 
office war reef 
war politics animal 
long old fishermen tarpon 
abraham national boat fishery 















































lincoln lincoln 
president president water tropic 
america america catch water 
new abraham reef storm 
national war fishermen species 
great man river boat 
white civil sea 
war new river 
washington history country 
clinton two tuna 
house room world 
history booth million 
time time state 
center politics time 
kennedy japan 






room mile 





日 ”这 是 一 个 非常 大 的 文档 集合 ， 规 模 超 过 第 6 章 中 用 于 生成 词 项 关联 表 的 语 料 。 第 6 章 中 的 那些 表 都 是 基于 和 鲁 
棒 跟 踪 数 据 获得 的 ， 这 些 数据 由 超过 50 万 个 文档 组 成 。 这 里 的 表 是 在 超过 6 百 万 个 文档 组 成 的 TREC 数 据 集 
上 生成 的 。 
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需要 注意 的 是 ， 虽 然 这 些 词语 都 是 合理 的 ， 但 是 它们 都 非常 依赖 于 数据 集中 使 用 的 文档 。 
例如 ， 在 TREC 新 闻 语 料 中 ， 许 多 故事 提 到 亚伯拉罕 林肯 都 是 关于 林肯 在 白宫 卧室 的 主题 。 这 
个 卧室 被 克林顿 总 统 用 于 招待 客人 ， 而 林肯 总 统 在 美国 内 战 中 作为 办 公 室 。 在 查询 “总 统 林 
肯 ” 和 “亚伯拉罕 林肯 ”时 ， 这 种 类 型 的 故事 会 反映 在 概率 排序 靠 前 的 词语 中 。 使 用 这 些 词 语 
来 扩展 查询 ， 显 然 会 使 得 检索 偏爱 于 这 种 类 型 的 故事 ， 而 不 是 关于 林肯 的 一 般 传 记 。 另 外 一 个 
需要 注意 的 就 是 ， 基 于 10 篇 文档 的 词语 和 基于 50 篇 文档 的 词语 没有 很 大 的 差异 。 但 是 ， 基 于 50 
篇 文档 的 词语 在 一 定 程度 上 更 加 普通 ， 因 为 较 大 规模 的 文档 集合 包含 了 更 加 多 样 的 主题 。 在 查 
询 实例 “热带 鱼 ” 的 结果 中 ， 基 于 10 篇 文档 的 相关 性 模型 词语 会 明显 更 加 接近 于 主题 。 

小 结 一 下 ， 通 过 根据 KL- 分 散 度 来 比较 查询 模型 和 文档 模型 得 到 排序 结果 ， 是 查询 似 然 得 
分 的 一 种 推广 。 这 种 推广 允许 更 加 精确 的 查询 ， 以 反映 话题 词语 的 相对 重要 性 。 这 些 话题 是 
检索 者 在 写 下 查询 时 头脑 中 的 想法 。 相 关 性 模型 是 一 种 基于 正式 语言 模型 框架 的 有 效 伪 相关 
反馈 技术 。 但 是 就 像 这 类 技术 一 样 ， 在 具体 检索 应 用 中 ， 需 要 谨慎 使 用 基于 相关 性 模型 的 查 
询 扩 展 。 

语言 模型 提供 了 正式 但 直接 的 方法 来 描述 基于 主题 相关 性 的 检索 模型 。 即 使 更 加 复杂 的 
模型 可 以 基于 融合 词 项 依赖 度 和 短语 来 开发 ， 主 题 相 关 性 也 只 是 有 效 搜索 需求 的 一 个 部 分 而 
已 。 在 下 一 节 中 ， 会 专注 于 融合 所 有 有 利于 用 户 相 关 性 的 各 种 证 据 的 检索 模型 。 这 种 模型 是 
用 户 使 用 搜索 引擎 时 真正 关心 的 。 


7.4 复杂 查询 和 证 据 整合 


高 效 检 索 需 要 将 与 文档 可 能 相关 的 许多 片段 式 的 证 据 组 合 起 来 。 在 前 面 章节 中 介绍 的 检 
索 模 型 中 ， 这 种 证 据 都 由 反应 主题 内 容 的 词语 的 出 现 次 数组 成 。 但 是 ， 一 - 般 来 说 ， 许 多 其 他 
类 型 的 证 据 可 以 考虑 进来 。 对 于 词语 ， 可 以 想到 考虑 特定 词语 是 否 出 现在 彼此 靠近 的 位 置 ， 
或 者 词语 是 否 出 现在 特定 的 文档 结构 中 ， 例 如 章节 标题 或 者 题目 ， 或 者 词语 是 否 彼此 相关 。 
另外 ， 诸 如 发 布 日 期 、 文 档 类 型 或 者 检索 中 的 PageRank 值 都 非常 重要 。 虽 然 例 如 查询 似 然 或 
者 BM25 等 检索 算法 能 够 扩展 后 包含 一 些 类 型 的 证 据 ， 但 是 启发 式 地 依赖 于 通过 调整 参数 和 适 
应 新 的 检索 应 用 来 “解决 ”检索 算法 问题 是 困难 的 。 相 反 ， 真 正 需要 的 是 一 个 能 够 蔬 视 不 同 
类 型 证 据 的 框架 ， 例 如 相对 重要 性 以 及 它们 是 如 何 结合 的 。 应 用 于 商业 应 用 和 开源 搜索 引擎 
中 (同时 被 融合 到 Galago 中 ) 的 推理 网 络 检索 模型 ， 是 人 能 够 做 这 种 事情 的 一 种 方法 。 

推理 网 络 模型 是 一 种 基于 贝 叶 斯 网 络 的 形式 化 方法 的 概率 模型 。 该 模型 提供 了 一 种 在 查 
询 语言 中 定义 和 评价 操作 运算 符 的 机 制 。 这 些 操 作 符 中 一 些 被 用 于 确定 证 据 的 类 型 ， 其 他 用 
于 描述 如 何 被 融合 。 这 里 将 推理 网 络 的 版 本 使 用 语言 模型 来 估计 用 于 评价 查询 的 概率 值 。 

在 这 一 节 中 ， 首 先 给 出 一 个 推理 网 络 模型 的 概述 ， 然 后 展示 这 个 模型 如 何 用 来 作为 搜索 
引擎 应 用 中 强大 的 查询 语言 的 基础 。 下 一 节 中 ， 将 介绍 网 络 搜索 并 解释 推理 网 络 模型 如 何 用 
来 结合 多 种 用 于 高 效 排序 的 证 据 来 源 。 

采用 推理 网 络 查 询 语言 的 查询 比 使 用 两 三 个 词语 的 简单 文本 查询 要 复杂 得 多 。 绝 大 多 数 
用 户 不 能 理解 这 门 语言 ， 正 如 绝 大 多 数 的 关系 数据 库 用 户 不 能 理解 结构 化 查询 语言 (SQL) 
” 一样。 相反 ， 有 些 应 用 可 以 翻译 简单 的 用 户 查询 到 更 加 复杂 的 查询 网 络 版 本 。 越 复杂 的 融合 
额外 特征 和 权 值 查询 ， 就 越 能 反映 高 效 排序 中 更 好 的 正确 融合 。 这 个 观点 会 在 下 两 节 中 讨论 
的 例子 而 变 得 更 加 明确 。 
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7.4.1 推理 网 络 模型 


贝 叶 斯 网 络 是 一 种 用 于 区 分 一 组 事件 和 事件 之 间 依赖 关系 的 概率 模型 。 这 种 网 络 是 有 向 
无 环 图 (DAG)， 图 中 的 节点 表示 带 有 一 组 可 能 输出 的 事件 ， 弧 表示 事件 之 间 的 依存 概率 。 特 
定 事件 输出 的 概率 或 者 置信 度 9 可 以 通过 给 定 父 节点 事件 的 概率 来 确定 (或 者 根 节点 部 分 给 
定 一 个 先 验 概率 ) 。 用 于 检索 模型 时 ， 节 点 表示 事件 ， 例 如 观察 到 的 一 个 特定 文档 、 一 种 特定 
的 证 据 片段 或 者 一 些 证 据 片 段 的 组 合 。 这 些 事件 都 是 二 元 的 ， 可 能 的 输出 值 只 有 真 (TRUE) 
或 假 (FALSE), 
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图 7-4 推理 网 络 模型 样 例 


图 7-4 展 示 了 一 个 推理 网 络 ， 其 中 被 融合 的 证 据 有 网 页 的 标题 (title) EX (body) 和 所 
有 <h1> 标 题 (heading)。 在 这 个 图 中 ，D 是 文档 节点 ,这 种 节点 对 应 于 观察 到 一 个 文档 (网 页 ) 
的 事件 。 文 档 数据 集中 ， 每 篇 文档 对 应 一 个 文档 节点 ， 假 设 每 次 只 考察 一 个 文档 。r 表 示 的 节 
点 是 文档 特征 (证 据 )。 这 些 特征 相关 的 概率 都 基于 使 用 参数 4 估计 得 到 的 语言 模型 9。 每 种 文 
档 结 构 (title、body 或 者 headings) 对 应 一 个 语言 模型 。 除 了 基于 词语 出 现 的 特征 外 ，r 节 点 
也 表示 邻近 特征 。 邻 近 特 征 有 很 多 种 不 同 的 形式 ， 例 如 在 一 个 特定 (长 度 )“ 窗 口 ” 的 文本 中 
的 词语 共 现 情况 。 这 种 窗口 会 在 下 一 节 中 详细 介绍 。 还 有 基于 语言 模型 的 特征 也 是 允许 的 ， 
例如 文档 日 期 ， 只 是 没有 出 现在 这 个 例子 中 。 

查询 节点 gq, 用 于 将 表示 型 节点 的 证 据 和 其 他 查询 节点 结合 起 来 。 这 些 节点 表示 更 加 明确 的 
证 据 和 文档 特征 的 共 现 情况 。 采 用 最 简单 的 布尔 逻辑 的 AND 和 OR 操作 ， 可 以 实现 多 种 结合 方 
式 。 整 个 网 络 用 于 计算 PUID, 内 ， 这 个 概率 表示 给 定 文档 和 参数 /的 是 一 种 信息 需求 。 节 点 [的 
信息 需求 是 一 个 特定 查询 节点 ， 用 于 结合 所 有 其 他 查询 节点 的 信息 到 一 个 单独 的 概率 值 或 者 
置信 分 数 上 。 这 个 得 分 用 来 对 文档 进行 排序 。 从 概念 上 讲 ， 这 意味 着 必须 对 数据 集中 的 每 个 
文档 评价 一 个 推理 网 络 ， 但 是 由 于 其 他 排序 算法 ， 索 引 被 用 来 加 速 计 算 。 一 般 来 说 ， 表 示 型 
节点 都 被 索引 了 ， 其 中 查询 节点 是 针对 用 户 或 者 搜索 应 用 对 每 个 查询 设 定 的 。 这 意味 着 需要 
对 大 规模 的 邻近 特征 进行 索引 。 除 了 词语 外 ， 这 样 做 会 显著 增加 创建 索引 的 规模 〈 正 如 第 5 章 
所 述 ) 。 在 一 些 应 用 中 ， 和 邻近 特征 相关 的 概率 都 是 在 查询 时 计算 的 ， 目 的 是 为 了 提供 更 加 灵 


© ”置信 网 络 是 一 类 用 于 模型 不 确定 性 的 技术 的 名 称 。 一 个 贝 叶 斯 网 络 就 是 一 个 概率 置信 和 网络。 
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活 的 具体 查询 。 

在 推理 网 络 图 中 的 连接 ， 定 义 为 查询 和 数据 集中 表示 每 个 文档 的 连接 到 的 表示 型 节点 
表示 型 节点 的 概率 通过 每 个 文档 的 语言 模型 进行 估计 。 注 意 ， 这 些 节 点 不 表示 一 篇 文档 中 特 
定 特征 的 出 现 情 况 ， 而 是 捕捉 文档 特性 概率 。 因 为 语言 模型 可 以 生成 这 个 概率 。 例 如 ， 词 语 
“林肯 ”对 应 的 节点 表示 一 个 文档 和 主题 相关 与 否 的 二 元 事件 。 文 档 的 语言 模型 被 用 来 计算 事 
FER (TRUE) 的 概率 。 . 

推理 网 络 中 的 所 有 事件 都 是 二 元 的 ， 我 们 不 能 真实 地 使 用 一 个 多 项 式 模型 来 将 文档 表示 
为 一 个 词语 序列 。 相 反 ， 使 用 多 元 伯 努 利 模 型 8 ， 这 个 模型 是 7.2.1 节 中 二 元 独立 模型 的 基础 。 
在 这 种 情况 下 ， 一 篇 文档 表示 为 一 个 二 元 特征 向 量 ， 简 单 地 记录 一 个 特征 出 现 与 否 。 为 了 捕 
所 词 项 的 频率 信息 ， 一 种 不 同 的 多 元 伯 努 利 模 型 被 用 来 将 文档 表示 为 多 重 集合 9 向 量 ， 其 中 
每 个 向 量 表示 一 个 词 项 的 出 现 情况 (Metzler, Lavrenko & Croft, 2004)。 事 实 上 ， 随 着 恰当 的 
选择 参数 ， 基 于 多 元 伯 努 利 分 布 的 概率 估计 和 基于 狄 利 特 雷 平滑 的 多 项 式 分 布 估 计 是 一 样 的 ， 
计算 如 下 : 
fap + PPC IC) 

IDl+u 


其 中 fi.o 是 文档 DD 中 特征 rn, 出现 的 次 数 ，P(ri1C) 是 特征 x 的 数据 集 概率 ，L 是 狄 利 特 雷 平滑 参数 。 
为 了 更 加 精确 ， 对 图 7-4 中 的 模型 ， 会 使 用 fi sv 计 数 ， 集 合 概率 以 及 jp 的 一 个 具体 数值 用 来 针对 
特定 的 感 兴趣 的 文档 结构 。 例 如 ， 如 果 记 o 是 特征 7 在 文档 标题 中 出 现 的 次 数 ， 那 么 集合 概率 
可 以 从 集合 中 所 有 的 标题 文本 得 到 估计 ，k 参 数 会 根据 标题 设 定 具体 数值 。 同 样 的 估计 公式 也 
被 用 于 词语 的 邻近 特征 。 例 如 ， 对 于 “纽约 ” 这 个 要 求 词语 必须 相互 紧邻 的 特征 ， Fi, op 就 是 
“纽约 ”在 文本 中 出 现 的 次 数 。 

确定 如 何 融 合 证 据 的 查询 节点 是 查询 语言 中 操作 的 基础 。 虽 然 贝 叶 斯 网 络 人 允许 任 意 形式 
的 组 合 (受到 概率 法 则 的 约束 )， 但 是 推理 网 络 检 索 模 型 是 基于 那些 能 够 被 高 效 计算 的 操作 的 。 
对 于 网 络 中 的 每 个 节点 ， 都 需要 指明 对 于 父 节 点 的 所 有 可 能 状态 的 每 个 输出 的 概率 。 如 果 父 节 
点 的 个 数 很 多 ,这 显然 会 变 得 非常 繁琐 。 幸 运 的 是 ， 许 多 有 趣 的 组 合 能 够 表示 成 简单 的 公式 。 

作为 结合 过 程 的 例子 以 及 说 明 如 何 有 效 地 完成 ， 孝 虑 布尔 操作 AND。 图 7-5 中 给 定 一 个 简 
单 的 样 例 网 络 ， 包 含 一 个 查询 节点 qg 和 两 个 父 节点 a 和 5， 可 以 描述 条 件 概 率 如 表 7-6 所 示 。 


P(r, 1D, 1)= 


表 7-6 示例 网 络 的 条 件 概 率 
Ca) (6 ) P(q=TRUEla, b) a b 
0 错误 错误 
0 错误 正确 
0 正确 错误 
1 正确 正确 


图 7-5 三 个 节点 的 推理 网 络 


日 ”根据 瑞士 数学 家 雅加达 (BF (Jakob Bernoulli) 命名 (也 叫 詹 姆 斯 ,或 者 杰 奎 琳 ， 是 同一 个 家 庭 中 八 
个 著名 的 数学 家 之 一 )。 多 元 伯 努 利 模型 会 在 第 9 章 中 进一步 介绍 。 
© SERA (MMR (bag)) 是 一 种 集合 每 个 成 员 都 有 一 个 关联 数据 记录 成 员 出 现 的 次 数 。 


a ER 165 


这 里 用 pi; 来 表示 表 7.6 中 第 一 列 的 数值 ， 基 中 i 和 j 对 应 父 节 点 。 例 如 ，pwo 表 示 给 定 a 为 真 、 
b 为 假 时 ，g 是 真 的 概率 。 为 了 计算 q 的 概率 ， 使 用 这 个 表 及 其 父 节 点 的 概率 (来自 表示 型 节点 ) 
如 下 : 
bel (dg) = Pu P(a = FALSE)P(b = FALSE) 
+ poP(a = FALSE)P(b = TRUE) 
+ pioP(a = TRUE)P(b = FALSE) 
+ p,,P(a = TRUE)P(b = TRUE) 
=0:(1-p,)- p,)+0°0— p,)p, +0: Pa- p,) + 1+ Dap, 
= PoP, 
其 中 ps 是 a 为 真 的 概率 ，p。 是 5b 为 真 的 概率 。 使 用 belss(q) 表 示 这 是 一 个 来 自 于 AND 组 合 的 置信 
{A (概率 )。 
这 意味 着 AND 的 证 据 组 合 的 概率 ， 可 以 通过 简单 地 将 父 节 点 的 概率 相 乘 起 来 得 到 。 如 果 
其 中 一 个 父 节 点 的 概率 很 低 (或 者 没有 使 用 平滑 技术 时 的 0)， 那 么 组 合 也 会 得 到 一 个 很 低 的 
概率 值 。 看 起 来 对 这 种 组 合 是 合理 的 。 可 以 采用 同样 的 方式 来 定义 许多 其 他 结合 操作 。 如 果 
一 个 q 节 点 有 n 个 概率 为 p; 的 父 节点 ， 那 么 下 面 的 一 组 公式 定义 了 一 些 普通 的 操作 符 : 
bel,,,(q) = 1— p, 


bel,,(q) = 1-[[G-p) 
beling(Q) = lr 


bel sand (q) = [I P; 


bel pax (4) = max{p,, P2> nts Prt 


bel ACD = dP. 


beyan = See 
Sit, 
其 中 wi 是 第 i 个 父 节点 的 关联 权 值 ， 显 示 其 证 据 的 相对 重要 程度 。 注 意 ，NOT 是 一 元 操作 (BD 
只 有 一 个 父 节 点 )。 

加 权 AND 操 作 是 非常 重要 的 ， 也 是 下 一 节 中 即将 介绍 的 查询 语言 中 最 普通 的 操作 之 一 。 
使 用 这 种 形式 的 结合 并 限制 证 据 (表示 型 节点 ) 到 单独 的 词语 上 ， 可 以 得 到 像 查 询 似 然 那样 
的 排序 。 

基于 这 里 描述 的 基础 模型 和 结合 操作 ， 可 以 定义 一 种 查询 语言 ， 用 来 在 搜索 引擎 中 得 到 
基于 复杂 证 据 组 合 的 排序 结果 。 l 
7.4.2 Galago 查 询 语言 

这 里 展示 的 Galago 查 询 语 言 类 似 于 基于 查询 网 络 检索 模型 的 开源 搜索 引擎 中 的 查询 语言 ©。 


忽 “” 例如 Inquery 和 Indri。 
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这 个 版 本 的 查询 语言 关注 于 这 些 语言 对 大 量 搜索 应 用 最 有 用 的 方面 ， 并 且 增 加 了 使 用 任意 特 
征 的 能 力 。 注 意 ，Galago 搜 索引 擎 并 不 是 基于 任何 特定 检索 模型 的 ， 而 是 为 实现 检索 模型 提 
供 了 一 个 有 效 的 框架 。 

虽然 查询 语言 可 以 容易 地 处 理 简单 的 结构 化 文本 文档 ， 但 是 更 有 趣 的 特征 使 用 了 基于 文档 
结构 的 证 据 。 假设 结构 是 具体 使 用 的 标签 对 ， 例 如 在 HITML 或 者 XML 中 的 。 考 虑 下 面 的 文档 : 

<html> 

<head> 

<title> 院 系 描述 </title> 

</head> 

<body> 

下 面 列 表 描 述 … 

<h1> 农 业 </h1> … 

<h1> 化 学 </h1>… 

<h1> 计 算 机 科学 </h1> … 

<h1> 电 子 工程 </h1> … 

</body> 

</html> 


在 Galago 查 询 语言 中 ， 一 个 文档 被 看 成 是 可 以 包含 任何 标签 的 文本 序列 。 在 上 面 的 例子 中 ， 
这 个 文档 由 HTML 标 签 文 本 构成 。 

对 于 文档 中 的 每 个 标签 类 型 T (例如 title、body、hl 等 ) ， 定 义 T 的 上 下 文 引 为 T 类 型 的 所 
有 标签 中 出 现 的 所 有 文本 和 标签 。 在 例子 中 ， 所 有 出 现在 <body> 和 </body> 之 间 的 文本 和 标签 
都 定义 为 body 的 上 下 文 。 单 独 的 上 下 文 对 每 个 单独 的 标签 名 称 生 成 。 因 此 ， 一 个 上 下 文 定义 
了 一 个 子 文档 。 注 意 ， 由 于 标签 栋 套 ， 特 定 词 语 会 在 很 多 上 下 文中 出 现 。 这 里 也 会 出 现任 套 
上 和 下文。 例如 ， 在 <body> 上 下 文中 舱 套 了 <hl> 上 下 文 ，<hl> 上 下 文 由 所 有 出 现在 body 上 下 文 
同时 在 <h1l> 与 </h1l> 之 间 的 所 有 文本 和 标签 构成 。 下 面 是 这 个 样 例文 档 中 的 title 标 签 、h1 标 签 
以 及 body 上 下 文 : 

title 上 下 文 : 

<title> 院 系 描述 </title> 





h1 上 下 文 : 

<h1> 农 业 </h1> … 
<h1> 化 学 </h1>… 
<h1> 计 算 机 科学 </h1> … 
<h1> 电 子 工 程 </h1> … 


body 上 下 文 : 

<body> 

下 面 列 表 描 述 … 
<h1> 农 业 </h1> … 
<h1> 化 学 </h1>… 
<h1> 计 算 机 科学 </h1> … 
<h1> 电 子 工程 </h1> … 
</body> 


O ”上 下 文 有 时 也 称 为 域 (field)。 
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每 个 上 下 文 都 由 一 个 或 者 多 个 扩展 构成 。 一 个 扩展 是 出 现在 间 样 类 型 标签 上 下 文中 的 一 
个 单独 开始 /结束 标签 对 之 间 的 文本 序列 。 对 于 这 个 例子 ， 在 <hl> 上 下 文中 ， 有 下 面 这 些 扩展 ， 
<hl> 农 业 </h1>、<hl> 化 学 </hl> 等 。title 和 body 上 下 文 只 有 一 个 扩展 ， 因 为 分 别 只 有 一 个 
<title> 标 签 和 <body> 标 签 。 给 定 标签 类 型 的 扩展 数目 ， 由 文档 中 出 现 的 那 种 标签 类 型 标签 对 
的 个 数 决定 。 l 

除了 文档 创建 时 定义 的 结构 外 ,还 有 由 特征 抽取 工具 获得 的 用 于 表示 结构 的 上 下 文 。 例 

如 ， 日 期 、 人 名 和 地 址 都 能 在 文本 中 被 特征 抽取 工具 识别 和 标注 。 只 要 这 种 信息 通过 标签 对 
表示 ， 就 能 够 被 查询 语言 像 其 他 文档 结构 那样 被 表示 。 
词 项 是 碍 询 语言 中 的 基本 构建 模块 ， 对 应 于 推理 网 络 模型 中 的 表示 型 节点 。 许 多 类 型 的 
词 项 都 能 被 定义 ， 例 如 简单 的 词 项 、 有 序 或 者 无 序 的 短语 、 同 义 词 和 其 他 。 另 外 ,许多 选项 - 
可 以 被 用 来 确定 一 个 词 项 必须 出 现在 一 个 特定 上 下 文中 ， 或 者 必须 使 用 一 个 利用 给 定 上 下 文 
估计 得 到 的 语言 模型 来 打分 。 

简单 词 项 : 

词 项 - 会 被 归 一 化 和 词 形 还 原 的 词 项 。 

“ 词 项 ” - 不 会 被 归 一 化 和 词 形 还 原 的 词 项 。 

举例 : 

总 统 

"NASA" 


邻近 词 项 ， 
#od:N( .… ) - 顺序 窗口 - 词 项 必须 顺序 出 现 ， 最 多 有 N-1 个 。 

#od( … ) - 没有 限制 的 顺序 窗口 - 所 有 词 项 必须 顺序 出 现在 当前 上 下 文中 的 任何 位 置 。 
#uw:N( … ) - 无 序 窗口 - 所 有 词 项 必须 出 现在 长 度 为 N 的 窗口 中 ， 可 以 是 任何 顺序 。 
#uw( ,… ) - 没有 限制 的 无 序 窗口 - 所 有 词 项 必须 出 现在 当前 上 下 文中 ， 可 以 是 任何 顺序 。 
举例 : 

#0d:1( 白 宫 ) - 精确 短语 匹配 “ 白 A”. 

#0d:2( 白 A) - 匹配 “ 白 * 宫 ”( 其 中 * 是 任何 词语 或 者 为 空 )。 

#uW:2( 白 宫 ) - 匹配 “ 白 宫 ” 和 “ 宫 白 ”。 


同义词 

#syn(...) 

#wsyn( ... ) 

这 两 个 表达 式 是 等 价 的 。 它 们 都 是 将 列举 的 所 有 词 项 看 成 是 同义词 。#Wwsyn 操 作 符 将 词 项 视 为 同义词 ， 并 且 允 
许 对 每 个 词 项 加 权 。 这 些 操作 的 对 象 只 能 是 简单 词 项 或 者 邻近 启 项 。 

举例 : | 

#syn(ž R) - 基于 两 个 词 项 的 简单 同义词 。 

#syn(#od:1( 联 合 KE) #od:1( 美 利 坚 联合 众 国 ) - 构造 了 两 个 邻近 词 项 的 同义词 。 

#wsyn( 1.0 唐 纳 德 0.8 唐 0.5 犬 ) - 加 权 同义词 ， 表 示 词 项 的 相对 重要 性 。 


无 名 词 项 ， 

#any:.() - 用 来 匹配 扩展 类 型 。 

举例 : 

#any:person() - 匹配 任何 人 的 扩展 。 

#od:1 (林肯 Æ 于 #any:date()) - 精确 匹配 短语 的 形式 :“ 林 肯 Æ 于 <date>...</date>”。 
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上 下 文 限制 和 评测 : 

expression.C1,...,.CN - 匹配 出 现在 上 下 文 C1 到 CN 之 间 的 任意 表达 式 。 

expression.(C1,...,CN) - 采用 文档 中 C1 到 CN 的 连续 上 下 文生 成 的 语言 模型 来 评价 表达 式 。 

举例 ， 

dog.tittle - 在 title 扩 展 中 匹配 词 项 “dog”。 

#uw(smith jones).author - 在 author 扩 展 中 匹配 两 个 人 名 “smith” 和 “jones”。 

dog.(title) - 在 文档 的 标题 语言 模型 中 评价 词 项 。 这 意味 着 估计 dog 在 给 定 文档 中 的 出 现 概 率 ， 这 个 概率 通过 文 
档 中 的 title 域 中 这 个 词 项 出 现 的 次 数 除 以 文档 的 titie 域 中 所 有 词 项 的 个 数 得 到 。 类 似 地 ， 平 请 采用 title 域 中 的 出 现 情 
况 相 对 于 整个 数据 集 的 概率 来 实现 。 

#0d:1( 亚 伯 拉 罕 林肯 ).person.(header) - 对 文档 中 所 有 的 “header” 文 本 构建 语言 模型 ， 并 评价 那个 上 下 文中 
的 #0od:I( 亚 怕 拉 罕 林肯 )( 即 在 header 上 下 中 的 person 扩 展 中 精确 匹配 这 个 短语 )。 


置信 操作 被 用 来 融合 词 项 、 短 语 等 特征 。 置 售 操作 有 不 加 权 和 加 权 两 种 。 在 加 权 操 作 中 ， 列 
出 了 证 据 的 相对 重要 性 。 这 可 以 用 来 控制 查询 中 的 每 个 表达 式 对 最 终 得 分 的 影响 。 过 滤 (filter) 
操作 用 来 排除 那些 不 包含 特定 证 据 的 文档 。 所 有 的 置信 操作 都 可 以 悉 套 。 

置信 操作 

#combine(...) - 这 个 操作 是 推理 网 络 模型 中 beland(q9) 操 作 的 归 一 化 版 本 。 详 见 后 续 的 讨论 。 

#weight(...) - 这 是 belvana(q) 操 作 符 的 归 一 化 版 本 。 

#filter(...) - 这 个 操作 符 类 似 于 #combine， 区 别 是 文档 必须 包含 所 有 词 项 的 至 少 一 个 〈 简 单 、 邻 近 、 同 义 词 等 ) 。 
伐 套 置信 操作 的 评价 不 变 。 

举例 : 

#combine( #syn( 狗 R) 训练 ) - 对 两 个 词 项 排序 ， 其 中 一 个 是 一 组 同义词 。 

#combine( biography #syn(#od:| 总 统 林肯 ) 加 d:!( 亚 伯 拉 罕 林肯 )) - 对 两 个 词 项 排序 ， 其 中 一 个 是 一 组 同义词 
“总 统 林肯 ”和 “亚伯拉罕 林肯 ”。 

#weight( 1.0 #od:l( 国 内 战争 ) 3.0 林肯 2.0 演讲 ) - 对 三 个 词 项 进行 排序 ， 并 且 加 权 使 得 词 项 “林肯 ”最 重要 ， 
然后 是 “演讲 " ， 最 后 是 “国内 战争 ”。 

#filterOk Rig #combine( 热 带 鱼 )) - 只 考虑 包含 “水 族 馆 ” 和 “热带 ”或 “ 鱼 ” 的 文档 ， 并 且 和 根据 查询 
#combine (水 族 馆 #combine( 热 带 鱼 )) 来 对 这 些 文档 排序 。 

#filter( #od:1(29%9 史密斯 ).author) #weight( 2.0 欧洲 1.0 旅行 ) - 对 “约翰 史密斯 ”出 现在 author 上 下 文中 的 
关于 “欧洲 ”或 者 “旅行 ”的 文档 进行 排序 。 

正如 刚才 描述 的 那样 ，#combine 和 #weight 操 作 分 别 是 belww 和 belwona 操 作 符 归 一 化 的 版 本 。 
这 两 个 操作 符 的 置信 度 计 算 如 下 : 


bel combine = ie m 


n na 
wif Why 
> fa 
Pi 


weight ~ 


bel 


完成 这 种 归 一 化 是 为 了 使 操作 符 更 像 原始 的 都 被 归 一 化 了 的 beljn 和 和 bel 操作 符 。 归 一 化 的 
一 个 优点 是 ， 可 以 根据 各 种 类 型 的 均值 (平均) 来 描述 这 些 操 作 的 置信 和 度 计 算 。 例 如 ，bel, 
计算 所 有 父 节 点 置信 度 的 算术 平均 值 ， 相 应 的 bels 计 算 加 权 算 数 平均 值 。 类 似 地 ，belwpinc 
和 belsona 分 别 计算 几何 平均 值 和 加 权 几 何平 均值 。 

filter 操 作 符 还 可 以 用 于 数值 (numeric) 和 日 期 (date) 域 操 作 符 ， 从 而 使 非 文 本 的 证 据 
可 以 融合 到 得 分 数 。 例 如 ， 下 面 的 查询 

#filter( 新 闻 .doctype #dateafter(12/31/1999).docdate 

#uw.20( 布朗 .person #any:company() #syn( 钱 现金 支付 )) 
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对 1999 年 后 出 现 的 新 闻 文 档 进行 排序 。 这 些 文档 同时 至 少 包 含 一 个 提 到 人 名 “布朗 ”的 长 度 
为 20 的 文本 片段 、 一 个 公司 名 称 、 至 少 三 个 讨论 金钱 词语 中 的 一 个 。 推 理 网 络 模型 可 以 非常 
容易 地 处 理 这 种 类 型 的 证 据 融合 ， 但 是 为 了 简单 起 见 ， 没 有 在 Galago 中 实现 这 些 操作 。 

推理 网 络 模型 中 的 另外 一 个 支持 Galago 查 询 语言 的 部 分 就 是 文档 的 优先 性 。 文 档 优先 特 
征 允 许 对 数据 集中 的 文档 指定 一 个 先 验 概率 。 这 些 先 验 概率 会 影响 对 某 种 特点 的 文档 优先 排 
序 ， 例 如 最 近 撰 写 或 者 简短 的 文档 。 

优先 性 : 

#prior:name() - 使 用 给 定名 称 指定 的 文档 。 优 先 性 是 文件 或 者 对 每 个 文档 提供 先 验 概率 的 函数 。 

举例 : 

#combine(#prior:recent() 全 球 WEAR) - 使 用 prior 指 定 越 是 最 近 的 文档 具有 越 高 的 权 值 。 

作为 使 用 这 种 查询 语言 更 加 详细 的 例子 ， 在 下 一 节 中 ， 会 讨论 网 络 搜索 和 融合 多 种 类 型 
证 据 后 的 有 效 排序 。#feature 操 作 可 以 定义 任意 特征 (新 证 据 ) ， 这 会 在 第 11 章 中 讨论 。 


7.5 网 络 搜索 


根据 流行 程度 来 判断 ， 网 络 搜索 显然 是 最 重要 的 搜索 应 用 。 数 百 万 人 每 天 使 用 网 络 搜索 
来 完成 从 购物 到 研究 的 涉及 范围 极 大 的 任务 。 考 虑 到 其 重要 性 ， 网 络 搜索 是 用 于 解释 已 经 讨 
论 的 检索 模型 如 何 具 体 应 用 的 明显 例子 。 

网 络 搜索 与 对 一 组 新 闻 文 档 提 供 搜索 的 应 用 有 一 些 显 著 区 别 。 主 要 的 区 别 包 括 数 据 集 的 
规模 〈 数 十 亿 计 的 文档 ) 、 文 档 之 间 的 连接 ( 即 联 系 )、 文 档 类 型 的 范围 、 查 询 的 规模 (每 天 
数 千 万 个 )、 查 询 的 类 型 等 。 这 些 话 题 中 有 些 已 经 在 前 面 的 章节 中 讨论 过 一 些 ， 其 他 的 会 在 后 
面 讨 论 ， 例 如 垃圾 的 影响 。 在 这 一 布 中 会 关注 查询 的 特征 以 及 对 排序 算法 最 重要 的 那些 文档 ， 

在 网 络 环境 中 有 些 不 同类 型 的 搜索 。Broder (2002) 提 出 了 一 种 流行 的 描述 搜索 的 方式 。 
在 这 个 分 类 体系 中 ， 搜 索 被 分 为 三 类 : 信息 式 、 导 航 式 、 交 互 式 。 信 息 式 搜索 的 目的 是 查找 
关于 一 些 可 能 包含 一 个 或 多 个 网 页 的 主题 相关 的 信息 。 由 于 每 次 搜索 都 是 寻找 一 些 类 型 的 信 
息 ， 本 书 称 之 为 主题 搜索 。 导 航 式 搜索 的 目的 是 ， 找 到 用 户 曾 经 见 过 或 者 假设 存在 的 特定 网 
页 9 。 交互 式 搜索 是 为 了 查找 可 以 执行 购物 或 者 下 载 音 乐 任务 的 网 站 。 每 种 类 型 的 搜索 都 有 
一 种 关联 的 信息 需求 ， 但 却 是 不 同类 型 的 信息 需求 。 基 于 主题 相关 性 的 检索 模型 主要 关注 于 
第 一 类 信息 需求 《和 搜索 ) 。 为 了 获得 其 他 类 型 搜索 的 有 效 排序 ， 需 要 有 一 种 能 够 融合 用 户 相 
关 性 证 据 的 模型 。 

商业 网 络 搜索 引擎 在 它们 的 排序 算法 中 融合 了 成 百 上 千 的 特征 。 许 多 特征 都 来 自 查 询 日 
志 中 海量 的 用 户 交 互 数据 。 这 些 特征 可 以 被 广泛 地 分 成 关于 网 页 内 容 的 特征 、 网 页 元 数据 、 
FOCAL RETR (例如 PageRank)、 用 户 行为 等 。 虽 然 锁 文 本 来 源 于 一 个 网 页 中 的 链接 ， 但 是 它 
和 其 他 来 自 于 网 页 链接 结构 分 析 的 特征 的 使 用 方法 不 一 样 ， 所 以 被 分 成 单独 的 一 类 。 页 面 元 
数据 是 关于 页 面 的 信息 。 这 些 信息 不 是 页 面 内 容 的 组 成 部 分 ， 例 如 页 面 的 “年 龄 "、 更 新 的 频 
率 、 页 面 的 URL、 所 在 网 站 的 域名 、 网 页 相关 材料 中 文本 内 容 的 数量 等 ， 例 如 图 片 和 广告 。 

有 趣 的 是 ， 理 解 这 些 特征 的 相对 重要 性 以 及 如 何 利用 它们 来 对 一 个 网 页 获得 更 好 的 搜索 
排序 ， 是 搜索 引擎 优化 (SEO) 的 基础 。 例 如 ， 搜 索引 擎 优化 人 员 会 改进 用 于 网 页 title 标 签 的 


日 ”在 TREC 评 测 中 ， 导 航 式 搜索 称 为 主页 搜索 和 命名 网 页 搜索 。 主 题 搜索 称 为 特定 搜索 。 导 航 式 搜索 类 似 于 
已 知 项 搜索 ， 这 种 搜索 已 经 在 信息 检索 领域 讨论 很 多 年 了 。 
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文本 ， 改 进 heading 标 签 中 的 文本 ， 确 保 域名 和 URL 包 含 重要 的 关键 词 ， 尽 量 改 进 圆 页 相关 的 
销 文 本 和 链接 结构 。 这 些 技术 中 有 些 并 不 被 网 络 搜索 引擎 公司 视 为 是 恰当 的 ， 这 会 在 9.1.5 节 
中 进一步 讨论 。 

在 TREC 环 境 中 ， 检 索 模 型 已 经 在 测试 网 页 集合 和 混合 的 查询 类 型 上 比较 过 。 关 于 用 户 行 
为 的 特征 以 及 一 些 诸如 更 新 频率 的 网 页 元 数据 特征 ， 在 TREC 数 据 集 上 都 是 无 法 使 用 的 。 其 他 
特征 中 ， 对 导航 式 搜索 最 重要 的 是 文档 的 title、body、heading(h1、h2、h3、h4) 中 的 文本 ， 所 
有 指向 文档 的 链接 上 的 错 文本 ，PageRank 数 值 和 入 链 (inlink) 数目 (指向 这 个 网 页 的 链接 数 
H) 等 。 注 意 ， 不 是 说 其 他 特征 不 会 影响 网 络 搜索 引擎 中 的 排序 ， 只 是 刚才 的 这 些 特 征 是 
TREC 实 验 中 最 具 显 著 影 响 的 。 

给 定 整 个 网 络 规模 的 大 小 ， 许 多 网 页 能 E 够 包含 所 有 的 查询 词 项 。 一 些 排 序 算法 只 对 这 些 
网 页 排序 ， 通 过 布尔 运算 AND 来 实现 过 滤 。 这 会 导致 问题 ， 如 果 只 有 网 络 的 一 个 子 集 被 使 用 
(例如 一 个 站 点 的 搜索 应 用 )， 同 时 也 会 对 主题 搜索 形成 特殊 的 风险 。 例 如 ，TREC 主 题 网 络 搜 
索 中 包含 全 部 查询 项 的 网 页 中 ， 只 有 50% 的 页 面 被 判断 为 是 相关 的 。 与 过 滤 不 同 的 是 ， 排 序 
算法 会 非常 倾向 于 包含 所 有 查询 词 项 的 网 页 。 另 外 ， 词 项 邻近 性 也 非常 重要 。 词 项 相互 邻近 
出 现 的 额外 证 据 会 显著 提高 排序 的 性 能 。 许 多 结合 词 项 邻近 性 的 检索 模型 已 经 被 开发 出 来 了 。 
下 面 的 方法 被 用 于 推理 网 络 模 型 中 ， 并 且 得 到 了 好 的 结果 人 S。 

依赖 模型 假设 在 相关 文档 中 查询 词 项 易于 相 邻 的 出 现 。 例 如 ， 给 定 查询 “绿色 政党 政治 
观点 ”的 相关 文档 中 ， 容 易 包含 短语 “绿色 政党 ”和 “政治 观点 ”而 且 相对 位 置 很 近 。 如 果 
将 查询 看 成 是 一 组 词 项 2， 可 以 定义 8o 为 2 的 所 有 非 空子 集 构 成 的 集合 。Galago 查 询 试 图 通过 
下 面 的 方式 捕捉 词 项 之 间 的 依赖 关系 ， 

1) 每 个 由 邻近 查询 词 项 组 成 的 sESyo， 容 易 作 为 完整 短语 出 现在 相关 文档 中 (例如 ， 使 用 
#0d:1 操 作 符 来 表示 )。 

2) 每 个 lsl>1 的 sESo。， 容 易 (有 序 或 者 无 序 ) 出 现在 相关 文档 的 一 个 大 小 合理 的 窗口 文本 
中 (例如 ， 在 窗口 中 表示 lsl = 2 为 加 w:8 ， 表 示 lsl = 3 为 #uw:12)。 

作为 例子 ， 这 个 模型 对 查询 “embryonic stem cells” 生 成 如 图 7-6 所 示 的 Galago 查 询 语言 
表示 ， 其 中 权 值 根据 产生 最 佳 结果 的 经 验 设 定 的 。 


Hvweight( 
0.8 #combine(embryonic stem cells) 
0.1 #combine( #od: | (stem cells) #od: I (embryonic stem) 


#od: | (embryonic stem cells)) 
0.1 #combine( #uw:8(stem cells) #uw:8(embryonic cells) 
#uw:8(embryonic stem) #uw:12(embryonic stem cells))) 





图 7-6 Galago 查 询 的 依赖 模型 


给 定 网 络 搜索 排序 中 重要 的 证 据 片段 ， 现 在 能 够 给 出 Galago 查 询 整合 证 据 到 有 效 排序 中 
的 例子 。 对 TREC 查 询 “pet therapy”， 可 以 生成 如 图 7-7 所 示 的 Galago 查 询 。 关 于 这 个 查询 ， 
首先 需要 注意 的 是 ， 它 清楚 地 展示 了 一 个 复杂 查询 可 以 从 简单 查询 中 生成 。 许 多 邻近 词 项 都 
被 添加 到 里 面 ， 并 且 所 有 词 项 都 被 基于 销 文本 、title 文 本 、body 文 本 的 上 下 文 所 评价 。 从 效果 
来 看 ， 即 使 这 会 导致 索引 规模 增加 很 大 ， 邻 近 词 项 也 可 以 被 索引 。 这 些 相对 较 大 的 查询 表达 


© Metzler and Croft (2005b) 给 出 了 正式 的 模型 描述 。 
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式 带 来 的 好 处 ， 是 评价 可 以 在 查询 时 非常 高 效 地 进行 。 
#weight( 
0.1 #weight( 0.6 #prior(pagerank) 0.4 #prior(inlinks)) 
1.0 #weight( 
0.? #combine( 
#weight( 1.0 pet.(anchor) 1.0 pet (title) 
3.0 pet.(body) 1.0 pet.(heading)) 

#weight( 1.0 therapy.(anchor) 1.0 therapy.(title) 


3.0 therapy.{body)} 1.0 therapy.(heading))) 
0.1 #weight( 
1.0 #od: | (pet therapy).(anchor) 1.0 #od:| (pet therapy).(title) 
3.0 #od: | (pet therapy).(body) 1.0 #od:i (pet therapy).(heading)} 
0.1 #weight( 
1.0 #uw:8(pet therapy).(anchor) 1.0 #uw:8(pet therapy).(title) 
3.0 #uw:8(pet therapy).(body) 1.0 #uw:8(pet therapy) .(heading))) 








图 7-7 对 于 网 络 数据 的 Galago 查 询 


PageRank 和 入 链 证 据 被 作为 先 验 概率 融合 到 这 个 查询 中 。 换 句 话说 ， 这 个 证 据 和 特定 查 
询 是 相互 独立 的 , 能 够 在 索引 时 计算 。 查 询 中 的 权 值 可 以 通过 TREC 网 页 数据 集 上 的 实验 确定 ， 
该 数据 集 基 于 .gov 域 的 数据 抓 取 。 对 于 完整 的 网 络 或 者 其 他 数据 集 ， 证 据 的 相对 重要 性 可 以 
不 同 。 事 实证 明 ， 网 页 主体 部 分 的 文本 比 文档 中 的 其 他 部 分 以 及 锁 文 本 都 更 加 重要 ， 这 一 点 
反映 在 它们 的 权 值 上 。 

在 TREC 数 据 集 上 的 实验 也 显示 ， 许 多 对 高 效 导航 式 搜索 具有 决定 性 的 证 据 ， 对 主题 搜索 
并 不 重要 。 事 实 上 ， 主 题 搜索 需要 的 特征 只 有 简单 的 词 项 和 文档 中 body 部 分 的 邻近 性 词 项 ， 
其 他 特征 不 会 改进 性 能 ， 但 是 也 不 会 降低 性 能 。 主 题 搜 索 和 导航 式 搜索 的 另外 一 个 区 别 是 ， 
使 用 伪 相 关 反 馈 对 主题 搜索 有 用 ， 但 是 会 使 得 导航 式 搜索 变 差 。 导 航 式 搜索 是 为 了 查找 特定 
网 页 ， 所 以 通过 增加 一 些 额外 的 词 项 的 平 请 查询 ， 会 增加 结果 的 “噪声 "。 这 一 点 并 不 奇怪 。 
如 果 一 个 搜索 被 明确 是 主题 类 的 ， 那 么 查询 扩展 会 有 用 。 但 是 这 很 难 准确 地 确定 。 因 为 通过 
扩展 的 潜在 效用 是 变化 的 ， 而 且 一 定 程度 上 是 不 可 预测 的 。 这 种 技术 一 般 来 说 是 没有 用 的 。 
对 于 交互 式 搜索 ， 需 要 识别 好 的 网 站 证 据 。 这 一 点 导航 式 搜索 看 起 来 也 需要 。 这 意味 着 同样 
的 排序 算法 能 够 被 用 于 不 同业 型 的 网 络 搜索 。 

其 他 研究 表明 ， 用 户 行为 信息 能 够 显著 影响 排序 的 性 能 ， 例 如 点 击 流 数 据 《 即 过 去 哪个 
文档 被 点 击 过 ， 排 序 中 哪个 位 置 被 点 击 过 ) 和 浏览 数据 (网 页 的 驻 留 时 间 ， 跟 随 的 链接 )。 这 
种 类 型 的 证 据 可 以 在 推理 网 络 框架 中 使 用 额外 操作 符 加 入 ， 但 是 随 着 证 据 片 段 数 目的 增加 ， 
如 何 确定 最 有 效 的 结合 方式 以 及 证 据 的 权 值 就 变 得 更 加 重要 。 在 下 一 节 中 会 讨论 使 用 用 户 的 

显 式 和 隐 式 反馈 数据 来 学 习 加 权 和 排序 算法 的 技术 。 


7.6 机 器 学 习 和 信息 检索 


信息 检索 领域 和 机 器 学 习 领 域 有 很 多 重要 的 重 登 。 在 上 个 世纪 60 年 代 ， 相 关 反 馈 被 提出 
作为 基于 用 户 关于 初始 排序 中 文档 重要 性 的 反馈 技术 。 这 是 一 个 简单 的 机 器 学 习 算 法 的 例子 ， 
需要 构建 一 个 分 类 器 来 区 分 相关 文档 和 非 相 关 文 档 。 在 80 年 代 和 90 年 代 ， 信 息 检索 研究 人 员 
使 用 机 器 学 习 方 法 来 基于 用 户 反馈 学 习 排序 算法 。 在 最 近 10 年 ， 有 许多 人 研究 使 用 机 器 学 习 
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方法 进行 文本 分 类 。 但 是 , 许多 机 器 学 习 对 信息 检索 的 应 用 受到 可 用 训练 数据 规模 的 限制 。 
如 果 系 统 需要 尝试 构建 一 个 对 每 个 查询 的 单独 的 分 类 器 ， 就 会 有 非常 少 的 关于 相关 文档 的 数 
据 。 然 而 ， 其 他 机 器 学 习 应 用 可 能 有 成 百 上 千 甚 至 更 多 的 训练 样 例 。 尝 试 通过 所 有 查询 上 的 
训练 数据 来 学 习 排 序 算法 的 方法 ， 也 会 受到 较 小 规模 的 查询 数据 和 典型 信息 检索 测试 数据 集 
上 的 相关 性 判断 的 限制 。 

随 着 网 络 搜索 引擎 的 出 现 ， 从 用 户 交 互 中 积累 了 海量 的 查询 日 志 ， 潜 在 的 训练 数据 的 规 
模 非 常 庞大 。 这 使 新 技术 的 开发 可 以 在 信息 检索 和 搜索 引擎 设计 领域 中 产生 显著 的 影响 。 在 
下 一 节 中 会 描述 能 够 融合 对 网 络 搜索 重要 的 许多 证 据 片段 并 加 权 的 学 习 排 序 算法 技术 。 

机 器 学 习 中 另 一 个 非常 活跃 的 领域 就 是 开发 出 文本 的 复杂 的 统计 模型 。 在 7.6.2 节 会 介绍 
这 些 模 型 是 如 何 被 用 于 改进 基于 语言 模型 的 排序 的 。 

7.6.1 排序 学 习 

到 目前 为 止 ， 所 有 提 到 的 概率 检索 模型 都 可 以 归 为 生成 式 模型 。 对 于 文本 分 类 ， 生 成 式 
模型 假设 文档 都 是 通过 一 些 潜在 的 模型 (在 文本 分 类 中 ， 常 常 是 多 项 式 分 布 ) 生成 的 ， 而 且 
使 用 训练 数据 来 估计 模型 的 参数 。 然 后 属于 某 个 类 别 〈 例 如 查询 的 相关 文档 ) 的 概率 使 用 贝 
叶 斯 法 则 和 文档 模型 来 进行 估计 。 相 对 而 言 ， 判 别 式 模型 估计 属于 某 个 类 别 的 概率 ， 是 直接 
通过 基于 训练 数据 的 观察 到 的 文档 特征 来 计算 的 S。 一 般 的 分 类 问题 中 ， 生 成 式 模 型 会 在 训 
练 样本 较 少 时 表现 更 好 ， 但 是 判别 式 模型 常常 在 数据 充足 时 表现 更 好 。 给 定 网 络 搜索 引擎 中 
可 用 的 湾 在 训练 数据 的 规模 ， 判 别 式 模型 被 期 望 在 这 个 应 用 中 有 具有 优势 。 正 如 我 们 提 到 的 那 
样 ， 判 别 式 模型 更 容易 融合 新 的 特征 ， 对 于 网 络 搜索 可 以 考虑 成 百 上 千 的 特征 。 

早期 应 用 在 信息 检索 中 学 习 判 别 式 模型 (判别 式 学 习 ) ， 使 用 的 是 logistic 回 归来 预测 一 个 
文档 是 否 属 于 相关 类 别 。 存 在 的 问题 是 训练 数据 的 规模 ， 以 及 随 之 而 来 的 依赖 于 人 工 显 式 判 
断 相 关 性 技术 的 有 效 性 。 即 使 得 到 一 个 商业 网 络 搜索 公司 的 资源 ， 显 式 的 相关 性 判断 仍然 需 
要 花费 很 多 才能 获得 。 另 一 方面 ， 查 询 日 志 包 含 了 大 量 的 隐 式 相关 信息 ， 其 形式 是 点 击 流 和 
其 他 用 户 交 互 。 对 应 于 此 ， 基 于 这 种 形式 数据 的 判别 式 学 习 技 术 被 开发 了 出 来 。 

在 搜索 中 ， 用 于 学 习 排 序 函 数 最 著名 的 方法 就 是 基于 支持 向 量 机 (SVM) 分 类 器 的 。 这 
种 技术 会 在 第 9 章 中 更 加 详细 地 讨论 ， 这 里 只 给 出 一 个 简单 的 描述 ， 说 明 Ranking SVM 如 何 被 
用 来 学 习 排 序 9。 

Ranking SVM 的 输入 是 针对 一 组 查询 的 偏 序 排序 信息 的 一 组 训练 集合 

(> A), (Go. Iss Gas 1,) 


其 中 4; 是 一 个 查询 ，r; 是 所 需 排 序 的 文档 关于 查询 的 部 分 排序 信息 或 者 相关 性 级 别 。 这 意味 着 ， 
如 果 文 档 g 应 该 比 ds 排 序 更 高 ， 那 么 (ds, dp)Er;， 否 则 (ds, di)Fr:。 这 些 排序 是 从 哪里 来 的 呢 ?” 如 
果 相 关 性 判断 可 以 获得 ， 所 需 排序 就 会 将 所 有 判断 为 高 相关 性 级 别 的 文档 高 于 那些 低 相关 性 的 
文档 。 注 意 ， 这 里 使 用 了 相关 性 的 多 个 级 别 。 这 种 多 级 别 经 常 被 用 于 网 络 搜索 引擎 的 评价 中 。 
但 是 ， 如 果 不 能 使 用 相关 性 判断 ， 那 么 排序 可 以 基于 点 击 流 和 其 他 用 户 数据 。 例 如 ， 如 
果 用 户 在 一 个 查询 的 排序 中 点 击 了 第 三 个 文档 而 不 是 前 面 两 个 ， 那 么 可 以 假设 第 三 个 文档 应 
该 在 r 中 被 排序 较 高 。 如 果 d;、d,、d; 分 别 是 搜索 输出 排序 中 的 第 一 个 文档 、 第 二 个 文档 和 第 


O ”我 们 会 在 第 9 章 再 次 讨论 生成 式 分 类 器 和 判别 式 分 类 器 。 
自 ” 这 部 分 描述 基于 Joachim 的 关于 点 击 流 数据 用 于 排序 学 习 的 论文 Joachims, 2002b)。 
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三 个 文档 ， 那 么 对 这 个 查询 在 所 项 查询 的 点 击 流 数据 可 以 成 对 出 现 为 (ds, di) 和 (d;, d,)。 这 种 
排序 数据 是 充满 噪声 的 (因为 点 击 不 是 相关 性 判断 ) 和 不 完整 的 ， 但 是 这 种 数据 会 有 很 多 ， 
并 且 实 验 显示 这 种 类 型 的 训练 数据 可 以 被 有 效 使 用 。 
假设 正在 学 习 一 个 线性 排序 函数 w.d, ， 其 中 芭 是 一 个 用 于 通过 学 习 调 整 的 权 值 向 量 ，.d 
是 文档 4 的 特征 表示 向 量 。 正 如 上 一 节 介 绍 的 那样 ， 这 些 特征 都 是 基于 网 页 内 容 、 网 页 元 数 
据 、 锚 文本 、 链 接 和 用 户 行为 的 。 但 是 ， 不 同 于 语言 模型 概率 ， 这 个 模型 中 的 特征 都 是 依赖 
于 查询 和 文档 内 容 较 简单 而 且 不 够 正式 的 匹配 结果 的 。 例 如 ， 其 中 会 有 查询 和 文档 body 共 有 
词语 数目 的 特征 ， 和 titte、header、 错 文本 的 类 似 特征 。 志 向 量 中 的 权 值 决 定 这 些 特 征 的 相对 
重要 性 ， 类 似 于 推理 网 络 操作 中 的 权 值 。 如 果 一 个 文档 表示 为 三 个 整数 值 的 特征 d= (2,4,1), 
权 值 向 量 是 w= (2, 1, 2)， 那 么 计算 排序 函数 得 到 的 得 分 就 是 ; 
wd =(2, 1, 2).2, 4, I) =22+14+2.1=10 
给 定 查询 的 训练 数据 和 排序 信息 ， 和 希望 找到 一 个 权 值 向 量 ORR SHAE Pe 
条 件 : 
Vid,, d) En : wd, > wd, 
Vid,, d) Er, :wd > wd, 


简单 来 说 ， 这 意味 着 对 排序 数据 中 所 有 的 文档 对 ， 希 望 对 相关 性 得 分 较 高 的 文档 在 排名 (R 
排序 ) 上 超过 相关 性 得 分 较 低 的 文档 。 遗 憾 的 是 ， 没 有 有 效 的 算法 来 对 找到 精确 的 解决 方 
案 。 但 是 ， 能 够 重新 形式 化 这 个 问题 为 一 个 标准 的 SVM 优化 问题 ， 如 下 所 示 : 

mini: 3.0 +CS §, ， 

2 ijk 

subject to: 

Vid,, d,) En :Wd, >wd, +1-§ jı 

V(d,, d,) Er, :Wd > wd, +1-&,,, 

VYN., j, k20 


其 中 弥 为 松弛 变量 ， 用 于 允许 对 困难 或 者 噪声 训练 样本 的 错误 分 类 ，C 是 用 于 阻止 过 拟 合 的 
参数 。 过 拟 合 是 指 学 习 算 法 在 训练 数据 上 的 排序 函数 表现 很 好 ， 但 是 对 新 查询 排序 文档 表现 
不 好 。 能 够 实现 这 种 优化 和 产生 分 类 器 的 软件 包 ， 可 以 从 网 .上 获得 9 。 

这 种 优化 从 哪里 得 到 呢 ? 心 急 的 读者 可 以 直接 跳 到 第 9 章 中 解释 一 般 SVM 分 类 器 的 部 分 。 
目前 ， 可 以 说 SVM 算法 会 找到 一 个 具有 下 述 性 质 的 分 类 器 ( 即 向 量 ww)。 在 训练 数据 中 的 每 对 
文档 可 以 表示 为 向 量 (.d, 一 .4,)。 如 果 对 这 对 文本 计算 得 分 为 到 .(d, -d,) ，SVM 分 类 器 会 找到 一 
个 w 使 得 最 小 的 得 分 尽 可 能 大 。 对 于 负 的 训练 实例 (不 在 排序 数据 中 的 一 对 文档 ) ， 同 样 的 事 
情 也 是 真实 的 ， 这 意味 着 分 类 器 会 使 得 对 最 难 排序 的 文档 对 的 得 分 差别 尽 可 能 大 。 

注意 ， 这 个 模型 并 没有 指出 需要 使 用 的 特征 。SVM 甚 至 也 用 于 从 不 同 的 检索 模型 得 分 学 
习 对 应 的 特征 权 值 ,例如 BM25 模 型 和 语言 模型 。 融合 多 个 搜索 引擎 ， 对 一 个 给 定 查 询 的 结果 ， 
被 证 明 在 许多 实验 中 都 是 有 效 的 。 这 部 分 内 容 会 在 10.5.1 节 进一步 讨论 。 需 要 注意 的 还 有 


OS PlgnsvmM"", Ghttp://svmlight.joachims.org, 
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Ranking SVM (或 者 其 他 一 些 判 别 式 技 术 ) 学 习 得 到 的 权 值 也 可 以 被 直接 用 到 推理 网 络 查询 
语言 中 。 

虽然 诸如 Ranking SVM 的 线性 判别 式 分 类 器 也 许 对 网 络 搜索 具有 优势 ， 但 是 还 有 一 些 只 
有 较 少 训练 数据 和 较 少 可 用 特征 的 其 他 搜索 应 用 。 对 于 这 些 应 用 ， 主 题 相关 性 的 生成 式 模型 
也 许 更 加 有 效 ， 特 别 是 那些 能 够 持续 从 更 好 的 估计 技术 中 提高 的 模型 。 下 一 节 会 讨论 将 文档 
建 模 成 一 个 混合 主题 模型 后 ， 如 何 改进 估计 。 

7.6.2 主题 模型 和 词汇 不 匹配 

在 一 般 的 信息 检索 中 ， 一 个 重要 的 话题 就 是 词汇 不 匹配 。 这 是 指 那 种 相关 文档 不 能 匹配 
查询 的 情况 。 因 为 它们 使 用 了 不 同 的 词语 来 描述 同一 主题 。 在 圆 络 环境 中 ， 许 多 文档 包含 全 
部 的 查询 词 项 ， 所 以 这 可 能 不 会 成 为 一 个 话题 。 但 是 ， 在 小 数据 集 上 的 搜索 应 用 中 ， 甚 至 是 
网 络 搜索 ， 这 一 点 都 是 重要 的 。TREC 上 的 实验 已 经 证 明 ， 使 用 查询 扩展 技术 时 主题 查询 会 产 
生 更 好 的 结果 。 查 询 扩展 〈 例 如 使 用 擅 相 关 反 馈 ) 是 用 于 降低 词汇 不 匹配 的 标准 技术 ， 尽 管 
词 形 还 原 在 一 定 程度 上 也 能 克服 这 个 问题 。 另 外 一 种 方法 是 可 以 通过 增加 相关 词 项 扩展 文档 。 
对 于 采用 语言 模型 表示 的 文档 ， 这 等 价 于 在 语言 模型 上 平滑 概率 ， 从 而 文本 中 没有 出 现 的 词 
语 具 有 非 零 概率 。 注 意 ， 这 不 同 于 使 用 对 所 有 文档 都 一 样 的 数据 集 概率 来 进行 平滑 。 相 反 ， 
需要 通过 一 些 方法 来 增加 文档 中 和 主题 相关 的 词语 的 概率 。 

为 了 达到 这 个 目的 ， 涌 现 了 许多 技术 。 如 果 一 个 文档 属于 某 个 类 别 或 者 文档 集 和 化， 那么 
文档 集 往 中 的 词语 概率 可 以 被 用 来 平滑 文档 语言 模型 。 在 第 9 章 中 会 详细 介绍 这 种 方法 。 一 种 
被 称 为 隐 含 语义 索引 或 者 LSIS 的 技术 ， 将 文档 和 词 项 映射 到 一 个 精简 的 维 数 空 间 中 ， 从 而 先 
前 使 用 成 千 上 万 词汇 索引 的 文档 ， 现 在 可 以 使 用 仅仅 几 百 个 特征 就 能 表示 。 在 这 个 新 空间 中 ， 
每 个 特征 都 是 许多 词语 的 混合 或 者 集 徐 ， 这 种 混合 式 实际 上 是 文档 表示 的 平滑 。 

隐 含 狄 利 特 雷 分 配 (LDA) 模型 来 源 于 机 器 学 习 领 域 。 它 将 文档 表示 成 许多 主题 的 混合 。 
一 个 主题 就 是 前 面 定义 过 的 一 个 语言 模型 。 在 诸如 查询 似 然 的 检索 模型 中 ， 每 个 文档 都 被 假 
设 成 一 个 单独 主题 。 实 际 上 ， 主 题 和 数据 集中 的 文档 是 一 样 多 的 。 相 比 之 下 ， 在 LDA 方 法 中 ， 
假设 有 一 个 固定 数目 的 福 在 ( 隐 含 ) 主题 能 够 被 用 来 描述 多 个 文档 的 内 容 。 每 个 文档 都 表示 
为 这 些 主题 的 混合 ， 都 能 达到 类 似 于 LSI 的 平滑 效果 。 在 LDA 模 型 中 ， 一 个 文档 首先 选择 主题 
上 的 一 个 分 布 来 生成 得 到 ， 然 后 文档 中 的 词语 是 选择 一 个 主题 并 从 这 个 主题 生成 的 。 

使 用 在 语言 模型 中 的 “ 桶 ”模拟 ， 需 要 多 个 桶 来 描述 这 个 过 程 。 对 每 个 文档 ， 需 要 一 个 
装 主题 的 桶 。 主 题 的 数目 是 每 个 主题 依赖 的 已 经 选 出 的 主题 分 布 数量 。 对 每 个 主题 ， 都 有 另 
外 一 个 桶 ， 用 来 装 词语 。 词 语 的 数目 是 主题 语言 模型 中 依赖 于 概率 的 词语 数量 。 然 后 ， 为 了 
生成 一 个 文档 ， 首 先 从 主题 桶 中 选 出 一 个 主题 (仍然 不 能 看 到 ) ， 然 后 到 这 个 选中 主题 对 应 的 
词语 桶 中 取出 一 个 词语 。 这 个 过 程 重复 进行 ， 取 出 第 二 个 词语 。 

概括 地 说 ， 生 成 一 篇 文档 的 LDA 过 程 如 下 : 

1) 对 每 个 文档 D， 根 据 参数 a 在 一 个 狄 利 特 雷 分 布 中 选择 一 个 多 项 式 分 布 bp。 

2) 对 文档 D 中 的 每 个 词语 位 置 : 

a) 从 多 项 式 分 布 bp 中 选择 一 个 主题 z。 
b) 从 P(wlz, B) 中 选择 一 个 词语 w，P(wlz, B) 是 给 定 主题 z 和 参数 B 时 的 多 项 式 条 件 概 率 。 


O ”这 种 技术 也 叫做 陷 含 语义 分 析 或 者 LSA(Deerwester er al., 1990)。 注 意 ,“ 隐 含 ”被 用 来 作为 “隐藏 ”的 意思 。 
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有 许多 技术 可 以 用 于 将 文档 数据 集 作为 训练 数据 来 学 习 主体 模型 和 6 分 布 ， 但 是 所 有 这 些 
方法 一 般 都 非常 慢 。 一 且 拥 有 这 些 分 布 ， 就 能 生成 文档 中 词语 的 语言 模型 概率 : 


Ps, = (w|D) = P(wl6,,8) = 六 Pow! z,B)P(z1 8p) 


这 些 概 率 值 随后 可 以 用 于 平滑 和 查询 似 然 概 率 混合 表示 的 文档 ， 如 下 所 示 : 


l Fo + pee) 


PwIiD)=Aa 
IDi+u 


+(1-A)P,,(w ID) 








因此 ， 实 际 上 最 终 的 语言 模型 概率 是 极 大 似 然 概率 、 数 据 集 概率 以 及 LDA 概 率 的 混合 。 

如 果 LDA 概 率 被 直接 用 于 文档 表示 ， 排 序 的 性 能 会 显著 削减 。 因 为 这 些 特 征 都 太平 滑 了 。 
在 TREC 实 验 中 , K (主题 的 数目 ) 的 数值 在 400 左 右 。 这 意味 着 数据 集中 的 所 有 文档 都 会 被 
表示 为 400 个 主题 的 混合 。 考 虑 到 在 数据 集 词 表 中 可 能 有 数 百 万 的 词语 ， 仅 仅 匹 配 主题 会 导致 
匹配 单独 词语 时 一 些 精确 率 的 丢失 。 但 是 ， 当 用 于 平滑 文档 语言 模型 时 ，LDA 概 率 可 以 显著 
地 提高 查询 似 然 排序 的 性 能 。 表 7-7 展 示 了 从 TREC 新 闻 故 事 样 本 中 生成 的 LDA 主 题 (总 共 100 
个 ) 中 高 概率 的 词语 9S 。 注 意 ， 主 题 的 名 称 不 会 自动 生成 。 


表 7-7 LDA 模 型 从 四 个 主题 生成 的 高 概率 词 项 






Education 



























































new million children school 
film tax women. students 
show program people schools 
music budget child education 
movie billion years teachers 
play federal families high 
musical year work public 
best spending parents teacher 
actor new says bennett 
first state family manigat 
york plan welfare namphy 
opera money men state 
theater programs percent president 
government care elementary 
congress life haiti 





搜索 应 用 中 采用 LDA 的 主要 间 题 ， 就 是 估计 模型 中 的 概率 比较 费事 。 除 非 有 快速 方法 ， 
否则 这 种 技术 只 能 限制 在 小 规模 数据 集 上 ( 数 十 万 篇 文档 ， 不 超过 百 万 )。 


7.7 基于 应 用 的 模型 


本 章 中 ,介绍 了 各 种 各 样 的 检索 模型 和 排序 算 革 。 从 一 些 关注 设计 和 实现 搜索 应 用 的 人 
士 的 角度 来 看 ， 问 题 在 于 哪些 技术 应 该 在 何 时 使 用 ? 答案 是 依赖 于 应 用 和 可 用 的 工具 。 绝 大 
多 数 的 搜索 应 用 包含 相对 较 少 的 互联 网 数据 集 ， 一 些 根据 链接 和 销 文本 的 较 少 链接 。 网 络 搜 


O 这 个 表 来 源 于 Blei 等 人 (2003)。 


176 P7 E 


索引 擎 中 表现 很 好 的 排序 算法 往往 不 能 在 其 他 应 用 中 得 到 最 好 的 排序 。 根 据 应 用 需求 定制 的 
排序 算法 ， 几 乎 总 是 能 得 到 最 好 结果 。 

这 样 做 的 第 一 步 是 ， 构 建 一 组 测试 数据 集 、 文 档 和 相关 性 判断 。 这 可 以 将 不 同 版 本 的 排 
序 算法 在 结果 上 进行 比较 。 在 第 8 章 中 详细 讨论 评价 方法 ， 对 于 高 效 搜索 引擎 ， 这 是 一 个 重点 
问题 。 

第 二 步 是 识别 哪些 证 据 或 者 特征 能 用 于 表示 文档 。 简 单 的 词 项 和 邻近 词 项 几乎 都 是 有 用 
的 。 明 显 的 文档 结构 一 一 例如 标题 、 作 者 和 日 期 域 一 一 也 都 几乎 总 是 对 搜索 很 重要 。 在 一 些 
应 用 中 ， 数 值 域 可 能 也 是 重要 的 。 文 本 处 理 技术 例如 所 考虑 到 的 词 形 还 原 和 停 用 词 ， 也 都 是 
必须 考虑 的 。 

可 以 用 于 查询 扩展 的 另外 一 个 重要 的 信息 来 源 是 具体 应 用 的 知识 宝库 。 在 以 往 的 信息 系 
统 中 ， 这 些 都 是 令 人 非常 普通 的 。 因 为 都 会 尝试 通过 手动 或 者 自动 的 方式 来 建造 它们 。 虽 然 
同义词 和 它们 包含 的 相关 词 经 常 都 是 非常 不 全 的 ， 但 是 都 能 在 排序 性 能 上 得 到 显著 不 同 。 

识别 出 各 种 文档 特征 和 其 他 证 据 后 ， 下 一 步 就 是 确定 如 何 融合 它们 来 计算 文档 的 得 分 。 
诸如 Galago 的 开源 搜索 引擎 使 得 这 相对 容易 实现 。 因 为 融合 和 对 证 据 加 权 都 能 够 表示 为 查询 
语言 。 许 多 变种 都 能 进行 快速 的 测试 。 其 他 搜索 引擎 则 没有 这 种 程度 的 灵活 性 。 

基于 简单 检索 模型 的 搜索 引擎 正 被 用 于 搜索 应 用 中 。 对 如 何在 BM25 模 型 或 者 查询 似 然 模 
型 中 计算 出 得 分 以 及 如 何 融 合 到 推理 网 络 模 型 的 描述 ， 能 够 被 用 来 指导 通过 恰当 的 查询 交互 
和 额外 的 得 分 代码 来 获得 类 似 的 结果 。 例 如 ， 在 知识 库 中 ， 同 义 词 和 相关 词 信 息 不 应 该 简单 
地 用 来 在 查询 中 增加 词语 。 除 非 使 用 #syn 操 作 的 一 些 变种 ， 否 则 排序 的 性 能 会 降低 。Galago 
中 的 #syn 的 实现 可 以 用 来 作为 如 何在 一 个 搜索 引擎 中 增加 这 种 操作 的 例子 。 

开发 搜索 引擎 应 用 时 许多 时 间 都 会 用 来 调节 排序 算法 的 排序 性 能 上 。 如 果 没 有 一 些 潜 在 
的 检索 模型 的 概念 ， 那 么 做 这 种 事情 是 吃力 不 讨好 的 。 本 章 介 绍 的 检索 模型 (BM25、 查 询 似 
然 、 相 关 性 模型 、 推 理 网 络 和 Ranking SVM) 可 能 对 于 排序 算法 的 成 功 提 供 了 蓝图 。 对 于 这 
些 模型 ， 好 的 参数 值 和 权 值 都 已 经 能 从 广泛 发 表 的 论文 中 获得 。 这 些 数值 可 以 用 来 作为 确定 
是 否 需要 针对 具体 应 用 进行 修改 的 起 点 。 如 果 有 足够 可 用 的 训练 数据 ， 那 么 诸如 Ranking 
SVM 的 判别 式 技术 可 以 用 来 直接 学 习 最 佳 的 权 值 。 
参考 文献 和 深入 阅读 

在 信息 检索 中 ， 由 于 检索 模型 是 最 重要 的 话题 之 一 ， 从 上 世纪 50 年 代 起 就 有 很 多 论文 都 
描述 这 方面 的 研究 。van Rijsbergen 的 书 (van Rijsbergen, 1979) 最 有 价值 的 贡献 之 一 ， 就 是 
概述 了 这 个 领域 早期 的 研究 。 在 本 书 中 会 集中 介绍 一 些 主要 的 论文 ， 而 不 是 尝试 全 面 的 阐述 。 
这 些 参 考 文献 会 按照 本 章 中 展示 的 话题 顺序 来 进行 讨论 。 

可 以 理解 的 是 ， 关 于 相关 性 本 质 的 讨论 已 经 在 信息 检索 领域 进行 了 很 长 时 间 。 早 先 的 论 
文中 ， 应 用 最 多 的 就 是 Saracevic (1975)。 有 一 篇 更 现代 的 文章 对 这 个 领域 的 工作 进行 了 概述 
(Mizzaro, 1997), 

关于 布尔 和 排序 的 对 比 研 究 的 话题 ，Turtle (1994) 完成 了 一 个 性 能 对 比试 验 ， 对 比 了 专 
业 搜 索 人 员 使 用 他 们 能 够 生成 的 最 好 的 布尔 查询 和 使 用 排序 的 关键 词 搜 索 ， 结 果 发 现 布尔 搜 
索 没 有 任何 优势 。 正 如 Turtle 和 Croft (1991) 介绍 那样 ， 当 使 用 简单 的 布尔 查询 和 排序 进行 对 
比 时 ， 排 序 的 性 能 会 高 很 多 。 
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向 量 空间 模型 最 早 在 Salton 等 (1975) 中 提出 ， 随 后 在 Salton 和 McGill (1983) 中 详细 介 
绍 。 基 于 这 个 模型 最 全 面 介绍 加 权 实 验 的 论文 是 Salton 和 Buckley (1988)。 在 7.1.2 节 中 描述 的 
词 项 加 权 技 术 在 这 篇 论文 工作 的 基础 上 有 一 点 提高 。 

将 信息 检索 看 成 是 分 类 问题 的 描述 出 现在 论文 van Rijsbergen (1979) 中 。 关 于 二 元 独立 
性 模型 及 其 在 BM25 排 序 方程 中 应 用 的 最 佳 论 文 是 Sparck Jones 等 (2000), 

最 早 在 信息 检索 中 使 用 语言 模型 的 工作 是 Ponte 和 Croft (1998)。 这 篇 文章 描述 了 一 个 基 
于 多 元 伯 努 利 语言 模型 的 检索 模型 。 这 个 工作 随后 迅速 被 许多 论文 跟 进 ， 实 现 了 多 项 式 版 的 检 
索 模 型 (Hiemstra, 1998; F. Song & Croft, 1999), 。Miller 等 (1999) 使 用 陷 马尔 可 夫 模 型 描述 了 
同样 的 方法 。Berger 和 Lafferty (1999) 说 明了 如 何 将 词语 的 翻译 概率 融合 到 语言 模型 方法 中 。 
在 10.3 节 会 再 次 提 到 这 种 翻译 模型 。Kraaij 等 (2002) 讨论 了 关于 非 一 致 先 验 概率 的 研究 工作 。 
一 些 关 于 语言 模型 和 信息 检索 的 论文 ， 出 现在 Croft 和 Lafferty (2003) 中 。 

Zhai 和 Lafferty (2004) 给 出 了 信息 检索 语言 模型 中 关于 平滑 技术 的 最 精彩 的 描述 。 采 用 
集 猎 和 最 近邻 来 平滑 的 方法 ， 在 Lin 和 Croft (2004) 和 Kurland 和 Lee (2004) 中 有 介绍 。 

早期 关于 词 项 独立 模型 的 描述 ， 出 现在 van Rijsbergen (1979) 中 。F. Song 和 Croft 
(1999) 介绍 了 用 于 信息 检索 的 二 元 语言 模型 ， 但 是 在 Gao 等 (2004) 和 Metzler 和 Croft 
(2005b) 中 ， 更 加 一 般 的 模型 获得 了 明显 更 好 的 检索 结果 ， 特 别 是 在 较 大 规模 数据 集 上 。 

关于 查询 扩展 的 相关 性 模型 出 现在 Lavrenko 和 Croft (2001) 中 。Lafferty 和 Zhai (2001) 
提出 了 一 种 相关 方法 来 构建 查询 模型 并 和 文档 模型 进行 对 比 。 

在 信息 检索 领域 已 经 有 很 多 实验 证 明了 证 据 融 合 可 以 显著 提高 排序 的 性 能 。Croft (2000) 
回顾 了 这 些 结果 ,证明 信 息 检索 在 被 看 成 有 大 量 特征 可 以 使 用 的 分 类 问题 时 ， 这 种 改进 并 不 
奇怪 。Turtle 和 Croft (1991) 描述 了 推理 网 络 模 型 。 这 个 模型 用 来 作为 Inquery 搜 索引 柳 
(Callan et al., 1992) 以 及 商业 搜索 引擎 WESTLAW (Pritchard-Schoch, 1993) 的 WIN 版 本 的 
基础 。 这 个 模型 包括 语言 模型 概率 的 扩展 版 本 在 Metzler 和 Croft (2004) 中 有 所 介绍 。 这 个 扩 
展 被 实现 为 Indri 搜 索引 擎 (Strohman et al., 2005; Merzler, Strohman, et al., 2004), Galago# 
询 语言 就 是 基于 Indri 查 询 语言 的 。 

7.5 节 中 介绍 的 网 络 搜索 方法 在 OQgilvie 和 Callan (2003) 的 基础 上 ， 是 基于 表示 不 同文 档 
结构 部 分 的 语言 模型 的 混合 来 对 文档 进行 打分 的 方法 。BM25F 排 序 函 数 (Robertson et al., 
2004) 是 BM25 的 拓展 ， 同 样 被 设计 以 高 效 的 融合 来 自 于 不 同文 档 域 。 

网 络 搜索 中 的 垃圾 信息 ， 也 叫做 对 抗 性 信息 检索 ， 是 很 重要 的 ， 以 至 于 可 以 作为 一 个 完 
整 的 子 领域 。 它 被 开发 出 来 用 于 解决 那些 被 不 同 兴 趣 团体 〈 例 如 垃圾 制造 者 和 搜索 引擎 优化 
AR) 处 理 过 的 文档 数据 集 上 的 搜索 技术 。 在 第 9 章 中 会 讨论 关于 垃圾 的 话题 。 

关于 排序 学 习 方 程 ， 早 期 的 工作 包括 logistic 回 归 技 术 的 使 用 (Cooper et al., 1992), Fuhr 
和 Buckley (1991) 最 早 清楚 地 介绍 了 如 何 使 用 和 实际 查询 词语 无 关 的 特征 (例如 使 用 查询 词 
项 中 匹配 个 数 作为 特征 ， 而 不 用 匹配 上 的 词 项 ) 来 增强 跨 查 询 的 学 习 排 序 方程 。 在 信息 检索 
中 使 用 Ranking SYM 是 Joachims (2002b) 介绍 的 。Cao 等 (2006) 介绍 了 对 这 种 方法 的 提高 
排序 性 能 的 改进 。RankNet (C. Burges et al., 2005) 是 一 种 用 于 学 习 排序 方程 的 神经 网 络 方法 ， 
这 种 方法 被 用 于 微软 网 络 搜索 引擎 中 。Agichtein, Brill, and Dumais (2006) 介绍 了 如 何 将 用 
户 特征 有 效 地 融合 到 基于 RankNet 的 排序 中 。Ranking SVM 和 RankNet 都 使 用 了 偏 序 排序 信息 
(例如 二 元 优选 性 ) 。 另 外 一 类 学 习 模 型 称 为 列表 模型 。 它 使 用 整个 排序 列表 来 学 习 。 相 关 的 
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例子 包括 Gao 等 (2005) 提出 的 线性 判别 式 模型 。 该 模型 基于 语言 模型 学 习 特征 的 权 值 ， 方 法 
类 似 于 用 于 融合 语言 模型 和 其 他 特征 的 推理 网 络 模型 。 另 外 一 种 列表 方法 是 Metzler 和 Croft 
(2005b) 提出 的 词 项 独立 模型 ， 也 是 基于 特征 线性 组 合 的 。Gao 和 Metzler 的 模型 都 提供 了 直 
接 最 大 化 精确 率 (一 种 重要 的 信息 检索 指标 ) 的 学 习 技 术 。 关 于 列表 学 习 模型 的 更 多 信息 ， 
可 以 在 Xia 等 人 (2008) 中 找到 。 

Hofmann (1999) 描述 了 一 种 将 文档 表示 成 主题 混合 的 概率 版 本 的 LSI (PLSI) 。LDA 模 
型 由 Blei 等 (2003) 提出 。 这 个 模型 的 许多 扩展 随后 被 提出 ， 但 是 都 还 没有 被 应 用 到 信息 检 
索 中 。Wei 和 Croft (2006) 描述 了 LDA 应 用 到 信息 检索 中 的 情况 。 


练习 


71 使 用 某 个 网 络 搜索 引擎 的 “高 级 搜索 ”方法 ， 想 出 三 个 使 用 布尔 操作 AND、OR 和 NOT 比 
使 用 在 常规 搜索 框 中 使 用 同样 查询 更 好 的 例子 。 你 认为 搜索 引擎 是 使 用 严格 的 布尔 模型 
来 实现 高 级 搜索 的 吗 ? 

7.2 你 能 想 出 另外 一 种 能 够 用 于 向 量 空间 模型 的 相似 度 度量 么 ? 使 用 一 些 样 例 文档 和 带 有 编 
造 权 值 的 查询 ， 来 对 比 你 的 度量 和 预先 的 相似 度 。 浏 览 关 于 网 络 的 信息 检索 领域 ， 看 看 
你 的 度量 是 否 已 经 被 人 研究 过 了 (Avan Rijsbergen 的 书 开 始 ) 。 

73 如果 每 个 词 项 在 一 个 t- 维 空间 中 都 被 表示 为 一 个 维度 ， 那 么 向 量 空 间 模型 可 以 假设 为 词 项 
都 是 相互 垂直 的 。 解 释 这 个 假设 并 讨论 你 是 否认 为 它 是 合理 的 。 

7.4 从 条 件 概 率 中 衍生 出 中 叶 斯 法 则 : 

PIAN B) 

P(B) 


给 出 一 个 例子 ， 包 含 一 个 条 件 概率 和 一 个 联合 概率 的 例子 ， 将 文档 中 词语 的 出 现 作 为 事件 。 

7.5 基于 Galago 实 现 一 个 BM25 模 型 。 证 明 它 能 工作 ， 然 后 用 文字 描述 它 

7.6 展示 你 的 BM25 实 现 中 修改 参数 值 的 效果 。 

7.7 什么 是 二 元 语言 模型 的 “ 桶 ”模拟 ?给 出 一 个 例子 。 

78 使 用 Galago 实 现 查询 似 然 ， 研 究 长 查询 和 短 查 询 在 性 能 上 的 影响 。 参 数 设置 是 否 产生 
差别 ? 

7.9 使 用 Galago 实 现 一 个 关于 人 擅 相 关 反 馈 的 相关 性 模型 方法 。 证 明 通过 对 查询 生成 一 些 扩展 
词 项 后 ， 你 的 方法 可 以 工作 ， 并 用 文字 描述 它 。 

7.10 证 明 bel,wwa 操 作 通 过 简单 词 项 计算 查询 似 然 得 分 。belwona 操 作 计 算 的 是 什么 ? 

7.11 使 用 Galago 为 推理 网 络 查询 语言 实现 一 个 faot 操 作 。 列 举 一 些 例子 来 说 明 它 是 如 何 工 
作 的 。 

7.12 使 用 Galago 完 成 一 个 针对 推理 网 络 查询 语言 的 数值 操作 。 

7.13 编写 一 个 界面 程序 ， 实 现 将 一 个 用 户 的 查询 作为 文本 并 转换 为 推理 网 络 查询 。 确 保 你 使 
用 了 邻近 操作 。 对 比 简单 查询 和 转换 后 查询 的 性 能 。 


P(AIB) = 





第 8 章 ”搜索 5| 警 评价 


“评价 一 下 Mr. Spock,” 





Captain Kirk, LKE REŽ ARKE) 
8.1 搜索 引擎 评 价 的 意义 


搜索 引擎 的 评价 是 衡量 一 个 搜索 引擎 系统 是 否 取得 进步 的 关键 。 在 一 个 搜索 引擎 系统 上 
线 之 前 ， 人 们 非常 有 必要 去 了 解 它 能 否 在 一 个 特定 的 应 用 环境 下 有 效 地 工作 。 然 而 ， 对 于 一 
个 新 版 本 的 搜索 引 敬 系统 ， 无 法 单 凭 感觉 来 判断 它 是 否 好 于 其 他 版 本 。 而 且 以 往 的 经 验证 实 ， 
人 们 直觉 上 的 一 些 猜 测 ， 如 提出 一 些 改进 搜索 质量 的 策略 或 是 有 吸引 力 的 搜索 模型 ， 往 往 效 
果 并 不 明显 。 因 此 ， 需 要 实施 一 些 模拟 实验 来 评估 新 版 本 的 搜索 引擎 的 设计 ， 当 新 产品 上 线 
之 后 ， 还 需要 继续 监测 和 适时 调整 其 性 能 。 

搜索 引擎 的 主要 评价 指标 是 效果 (effectiveness) 和 效率 (efficiency)。 简 单 来 讲 ， 效 果 
衡量 的 是 搜索 引擎 返回 正确 的 搜索 答案 的 能 力 ， 而 效率 衡量 的 是 搜索 引擎 的 搜索 速度 。 对 于 
一 个 给 定 的 查询 及 相关 性 的 定义 可 以 更 准确 地 定义 这 两 个 评价 指标 ， 即 “效果 ”为 搜索 引擎 
的 实际 排序 结果 与 人 工 排 序 结果 的 拟 合 度 ,“ 效 率 ” 为 搜索 引擎 的 排序 算 半 所 用 的 时 间 和 空间 
复杂 度 。 搜 索引 擎 是 一 个 大 众 使 用 的 工具 ， 是 一 个 互动 的 过 程 ， 不 同类 型 的 用 户 拥 有 各 自 不 
同 的 查询 习惯 以 及 对 查询 结果 的 要 求 。 在 这 种 情况 下 ,“ 效 果 ” 和 “效率 ”也 会 被 很 多 其 他 的 
因素 所 左右 ， 例 如 ， 显 示 查 询 结 果 的 用 户 界面 、 查 询 优化 和 查询 扩展 等 技术 的 使 用 。 对 使 用 
这 些 因素 的 搜索 结果 的 “效果 ”和 “效率 ”评价 虽然 非常 重要 ,但 由 于 这 些 因 素 很 难 进行 控 
制 ， 使 得 对 它们 的 评价 变 得 非常 困难 。 鉴 于 此 ， 本 文 的 评价 是 在 严格 定义 的 实验 环境 下 进行 
的 ， 以 确保 评价 结果 的 公平 公正 性 。 

搜索 引擎 的 “效果 ”和 “效率 ”是 息息相关 、 相 互 制 衡 的 。 例 如 ， 即 使 我 们 采用 了 某 种 
策略 使 得 搜索 引擎 “效果 ”得 到 了 一 些 提 高 ， 但 却 明 显影 响 了 系统 的 “效率 ”( 如 查询 的 吞吐 
率 ) ， 那 么 这 种 策略 也 不 会 被 搜索 引擎 系统 所 采纳 。 一 般 来 说 ， 搜 索引 擎 更 重视 “效果 ”的 提 
升 ， 这 是 由 于 搜索 引擎 最 大 的 用 处 就 是 能 给 用 户 反馈 出 相关 的 查询 结果 。 因 此 ， 搜 索引 擎 的 
“效果 ”是 研究 的 重点 。 当 某 项 技术 被 证 实 对 提升 “效果 ”确实 是 非常 有 效 的 时 候 ， 工 作 的 重 
点 才 转 移 为 如 何 找 到 一 种 高 效 的 实现 方式 。 但 这 并 不 意味 着 关于 系统 构架 和 系统 效率 并 不 重 
要 。 第 5 章 中 提 及 的 如 何 建 设 一 种 可 扩展 和 高 效 的 搜索 引擎 技术 ， 也 被 很 多 研究 机 构 所 研究 。 
但 众所周知 ， 如 果 一 个 搜索 引擎 系统 仅仅 是 速度 快 ， 却 没有 提供 良好 的 查询 结果 ， 是 没有 丝 
ZEN. 

那么 ， 可 否 在 搜索 引擎 的 两 个 指标 “效果 ”和 “效率 ”之 间 进 行 适当 的 折 中 呢 ? 设计 者 
们 试图 考察 是 否 可 以 设置 一 些 参数 来 调节 搜索 引擎 系统 ， 使 得 系统 既 能 返回 较 高 质量 的 查询 
结果 ， 同 时 又 不 会 影响 系统 的 效率 。 然 而 ， 就 目前 的 研究 现状 而 言 ， 还 没有 可 靠 的 显著 提高 
搜索 质量 的 技术 可 以 被 融入 搜索 引擎 系统 中 ， 使 搜索 速度 得 到 同步 的 提升 。 我 们 期 待 着 这 一 
目标 在 未 来 的 研究 工作 中 得 以 实现 。 
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除了 搜索 的 “效果 ”和 “效率 ”"， 另 一 个 值得 考虑 的 因素 是 搜索 引擎 设计 的 造价 。 我 们 或 
许 知道 如 何 高 效 地 使 用 搜索 引擎 技术 ， 然 而 要 想 达 到 这 个 目的 ， 或 许 会 在 处 理 器 、 内 存 、 硬 
盘 和 网 络 方面 需要 大 量 的 投资 。 一 般 情 况 下 ， 如 果 我 们 的 目的 是 这 三 个 因素 中 的 任意 两 个 ， 
那么 第 三 个 因素 基本 上 也 就 满足 了 。 例 如 ， 如 果 我 们 希望 搜索 引擎 系统 具有 较 高 水 平 的 效果 
和 效率 ， 那 么 顺理成章 地 ， 需 要 高 额 的 系统 配置 。 另 一 方面 ， 假 设 我 们 追求 系统 的 效率 且 想 
减少 系统 配置 的 成 本 ， 那 么 势必 影响 系统 的 效果 。 对 于 这 三 个 因素 而 言 ， 两 个 极端 的 选择 情 
况 是 ， 可 以 简单 地 使 用 字符 串 匹配 方法 (grep) 进行 搜索 或 者 直接 使 用 某 些 机 构 的 检索 系统 
如 美国 国会 图 书馆 检索 系统 。 在 一 个 大 的 文本 集中 使 用 字符 串 匹 配 算法 (grep) 会 导致 较 差 
的 搜索 “效果 ”和 “效率 "， 但 是 花费 很 低 。 在 人 工整 理 的 美国 国会 图 书馆 系统 中 进行 检索 ， 
可 以 获得 非常 高 质量 的 检索 结果 ， 同 时 也 可 以 获得 较 快 的 检索 速度 (虽然 有 时 候 有 些 时 间 拖 
延 ， 等 待 系统 回应 )， 然 而 花费 很 高 。 因 此 ， 使 用 一 个 高 效 的 搜索 引擎 进行 直接 检索 ， 是 解决 
这 两 个 极端 情况 的 一 个 较 好 的 折 中 。 

在 对 搜索 引擎 进行 评价 时 ， 使 用 最 频繁 的 一 个 术语 就 是 “优化 " 。 搜 索引 擎 中 的 检索 和 索 
引 技术 在 “效果 ”和 “效率 ”方面 ， 都 有 很 多 参数 需要 进行 调整 以 优化 系统 性 能 。 通 常情 况 
下 ， 这 些 优化 参数 是 使 用 训练 语 料 和 代价 函数 获取 的 。 训 练 语 料 是 真实 数据 的 一 个 抽样 ， 而 
代价 函数 一 般 是 一 个 取 最 大 值 或 最 小 值 的 函数 ， 也 是 衡量 系统 优化 的 一 种 方式 。 例 如 ， 训 练 
语 料 可 以 是 一 个 含有 若干 查询 及 其 对 应 的 标准 查询 结果 的 数据 集 ， 而 排序 算法 的 代价 函数 可 
以 表示 为 对 排序 效果 的 一 种 衡量 。 系 统 优化 的 过 程 也 因此 可 以 描述 为 ， 在 训练 语 料 上 调节 排 
序 算法 的 参数 ， 使 得 代价 函数 达到 最 大 或 最 小 。 这 种 优化 的 过 程 不 同 于 “搜索 引擎 优化 ”， 后 
者 主要 是 指 通过 对 网 页 顺序 的 调整 来 确保 某 些 网 页 有 较 高 的 排名 。 

在 本 章 后 续 的 部 分 中 ， 主 要 针对 搜索 引擎 的 两 个 重要 的 评价 指标 “效果 ”和 “效率 "， 着 
重 讨论 几 种 较为 重要 的 评价 策略 。 同 时 也 将 介绍 如 何在 严格 控制 的 实验 环境 中 实施 一 些 实验 
SR, MRR GREA RL. 


8.2 评价 语 料 


评测 最 基本 的 要 求 是 可 以 将 不 同 的 技术 方案 在 同一 个 平台 上 进行 比较 。 为 了 使 得 这 种 对 
比 公平 公正 ， 且 可 以 重 现 ， 实 验 设置 和 使 用 的 评测 数据 必须 是 固定 的 。 最 早 的 大 规模 搜索 性 
能 评价 开始 于 20 世 纪 60 年 代 ， 一 般 称 为 克 兰 费 尔 德 实验 (Cleverdon，1970 年 )。 研 究 者 们 通 
过 收集 一 些 测试 集 (test collections) ， 包 括 文档 集 、 查 询 以 及 文档 与 查询 的 相关 性 判断 等 ， 来 
完成 这 次 评测 。 在 其 他 与 语言 相关 的 研究 领域 ， 如 计算 语言 学 、 机 器 翻译 或 是 语音 识别 领域 ， 
也 需要 大 量 的 测试 语 料 (text corpus 多 以 文档 的 形式 表示 ) 来 做 各 种 统计 分 析 。 这 些 语 料 ， 或 
者 称 为 评测 集 (evaluation corpus) ， 在 信息 检索 领域 是 非常 特殊 的 ， 这 是 因为 该 评测 集中 除 
了 文档 信息 之 外 ， 还 需要 包括 查询 与 文档 的 相关 性 判断 。 

评测 集 多 年 的 变更 ， 反 映 出 检索 数据 的 变化 以 及 典型 搜索 应 用 的 变化 。 在 此 给 出 如 下 的 
例子 来 展示 这 些 变化 。 从 20 世 纪 80 年 代 起 ， 每 隔 10 年 左右 构建 一 个 评测 集 ， 最 终 有 如 下 三 个 
评测 集 : 

e CACM: 标题 和 摘要 来 自 于 1958 一 1979 年 的 ACM 通 信 ， 其 中 的 查询 和 相关 性 判断 由 人 

工 制 定 。 


O ” 克 兰 费 尔 德 是 英国 的 一 个 城市 ， 也 是 评测 实验 完成 的 地 点 。 
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s AP: 文档 集 来 自 于 1988 ~ 1990 年 的 美 联 社 新 闻 报 道 (FEA TRECH ~ 3 光盘 )。 查 询 来 
自 于 TREC 的 话题 51 到 话题 150 的 标题 。 话 题 和 相关 性 判断 由 政府 信息 分 析 员 进行 制定 。 

*GOV2: 文档 集 来 自 于 2004 年 初 的 从 .gov 结 尾 的 网 站 上 抓 取 的 网 页 。 查 询 来 自 于 TREC 的 

话题 701 到 话题 850 的 标题 。 话 题 和 相关 性 判断 由 政府 信息 分 析 员 进行 制定 。 

CACM 数 据 集 的 建立 ， 是 由 于 当时 大 多 数 的 搜索 应 用 集中 在 参考 书目 (bibliographic 
records 仅 包含 标题 和 摘要 ) 的 搜索 任务 上 ， 而 并 不 需要 全 文 搜索 。 表 8-1 显 示 了 该 数据 集中 文 
档 的 数目 (3204 篇 )， 同 时 可 以 看 出 ， 每 篇 文档 中 词语 的 平均 数量 也 非常 的 小 (64 个 )。 整 个 
文档 集 的 大 小 仅 有 2.2 兆 字 节 ， 甚 至 小 于 现在 的 一 个 音乐 或 MP3 文 件 的 大 小 。 访 数据 集 由 计算 
机 方面 的 论文 摘要 构成 ， 其 中 的 “查询 ”由 计算 机 学 院 的 师 生 共同 构建 完成 ， 这 些 查询 都 来 
自 实际 的 信息 需求 。CACM 查 询 的 示例 如 下 所 示 

局 域 网 络 的 安全 因素 、 网 络 操作 系统 、 分 布 式 系统 

其 中 ， 每 个 查询 返回 文档 的 相关 性 判断 由 同一 个 人 来 决定 。 这 在 当时 是 可 行 的 ， 因 为 查 
询 的 数据 集 规模 很 小 ， 并 且 构 建 查 询 的 相关 师 生 对 这 些 数据 集 都 非常 熟悉 。 表 8-2 中 列 出 了 
CACM 数 据 集中 的 查询 都 比较 长 〈 平 均 13 个 词 ) ， 而 评 负 集 的 规模 却 非 常 小 ， 平 均 每 个 查询 约 
有 16 个 相关 的 文档 。 


表 8-1 三 种 数据 集 的 统计 信息 。 其 中 ， 统 计 每 篇 文档 的 平均 词 数 时 没有 进行 词 形 转换 





数据 集 所 包含 的 篇 章 数 量 大 小 平均 每 篇 含有 的 词 的 数量 
CACM 3 204 2.2 MB 64 
AP 242 918 0.7 GB 474 
GOV2 25 205 179 426 GB 1073 


AP 和 GOV2 数 据 集 是 由 NIST 支 持 的 TREC 评 测 系列 数据 集 的 一 部 分 。AP 数 据 集 是 一 个 典 
型 的 全 文 数 据 集 ， 并 在 20 世 纪 90 年 代 首 次 使 用 。 廉 价 的 磁盘 存储 技术 以 及 大 量 的 在 线 文字 录 
入 ， 促 进 了 大 量 的 搜索 应 用 的 产生 ， 如 新 闻 事 件 、 法 律 文件 以 及 百科 文摘 等 数据 库 的 搜索 等 。 
AP 数据 集 ， 无 论 是 文档 的 数量 还 是 文档 集 的 字 节 大 小 ， 都 要 比 CACM 数 据 集 大 得 多 (大 约 大 
出 两 个 数量 级 )。 由 于 AP 数 据 集 的 文档 是 由 整 篇 的 新 闻 事 件 构成 ， 导 致 文档 的 平均 长 度 也 变 
长 了 。 相 比 AP 而 言 ，GOV2 数 据 集 又 增加 了 两 个 数量 级 的 规模 。 它 被 设计 为 检测 网 络 搜索 应 
用 技术 的 平台 ， 由 以 .gov 结 尾 的 网 站 提供 。 由 于 这 种 网 站 提供 较 长 的 政府 政策 描述 或 是 表格 ， 
因此 ， 文 档 的 平均 长 度 是 这 三 种 数据 集中 最 长 的 。 


表 8-2 三 种 数据 集 的 查询 统计 信息 


数据 集 查询 的 数量 每 个 查询 的 平均 词 数 每 个 查询 的 平均 相关 文档 数 
CACM 64 13.0 16 
AP 100 4.3 220 
GOV2 150 3.1 180 





AP 和 GOV2 数 据 集 的 查询 都 是 与 TREC 话 题 相 关 的 。 这 些 话题 由 NIST 聘 用 的 政府 信息 分 
析 员 所 制定 。 早 期 的 TREC 话 题 一 般 反 映 了 政府 或 工业 生产 中 的 专业 分 析 员 的 需求 ， 并 且 相 当 
的 复杂 。 后 期 的 TREC 话 题 设计 则 更 多 反映 了 普遍 的 信息 需求 ， 但 它们 依然 保留 了 TREC 的 话 
题 设计 模式 。 图 8-1 是 其 中 的 一 个 示例 。TREC 的 话题 模式 共有 三 个 部 分 ， 由 不 同 的 标签 表示 。 
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其 中 ，<title> 标 签 表示 一 个 较 短 的 查询 ， 类 似 于 网 页 搜索 中 的 典型 查询 ，<description> 标 签 是 
对 该 查询 的 详细 描述 ， 是 查询 的 扩展 版 本 ， 如 图 8-1 中 所 示 ，<description> 要 比 <title> 的 解释 
更 为 详尽 ， 而 <narrative> 标 签 则 描述 了 检索 返回 的 文档 与 查询 的 相关 性 的 标准 。 这 些 标准 一 
般 由 人 工分 析 员 所 使 用 ， 以 便 对 最 终 查询 检索 后 返回 文档 的 相关 性 做 出 判断 ， 提 高 一 致 性 ， 
而 并 非 是 查询 的 一 部 分 。 近 期 ， 在 大 部 分 的 TREC 评 测 中 ， 人 们 一 般 使 用 话题 的 <titlie> 部 分 作 
为 查询 ， 关 于 查询 的 各 种 统计 数据 如 表 8-2 所 示 。 


<top> 
<num> Number: 794 

















<title> pet therapy 





<desc> Description: 
How are pets or animals used in therapy for humans and what are the 
benefits? 


<narr> Narrative: 
Relevant documents must include details of how pet- or animal-assisted 
therapy is or has been used. Relevant details include information 
about pet therapy programs, descriptions of the circumstances in which 
pet therapy is used, the benefits of this type of therapy, the degree 

of success of this therapy, and any laws or regulations governing it. 


| </top> 
图 8-1 TREC 话 题 举 例 


TREC 中 的 相关 性 判断 依赖 于 待 评价 的 任务 。 对 于 这 些 表 格 中 的 查询 ， 如 果 待 评价 的 任务 
重视 较 高 的 召回 率 ， 则 意味 着 不 能 丢失 太 多 的 相关 反馈 文档 。 给 定 某 项 任务 的 上 下 文 语 境 ， 
如 果 某 篇 文档 包含 的 信息 可 以 用 来 帮助 写 出 一 篇 查询 相关 的 报道 ， 则 TREC 分 析 员 认为 该 文档 
与 查询 是 相关 的 。 在 第 7 章 中 讨论 过 用 户 相 关 (user relevance) 和 话题 相关 (topical relevance) 
的 不 同 之 处 。 尽 管 TREC 的 相关 性 定义 确实 需要 顾虑 所 发 现 信息 的 有 用 性 ， 但 是 分 析 员 需要 进 
一 步 判 断 同样 含有 有 用 信息 的 所 有 文档 是 否 都 是 相关 的 。 但 这 并 不 是 真实 用 户 愿意 做 的 事情 ， 
TREC 更 侧重 于 “话题 相关 ”。 对 于 CACM 数 据 集 而 言 ， 所 有 的 相关 性 评价 均 是 二 值 的 ， 即 判 
断 一 篇 文档 是 查询 相关 还 是 不 相关 。 对 于 大 部 分 的 TREC 数 据 集 而 言 ， 同 样 是 这 样 的 。 然 而 对 
于 某 些 任务 而 言 ， 多 值 的 相关 性 评测 或 许 是 适合 的 ， 我 们 将 在 8.4 节 讨论 关于 二 值 和 多 值 的 效 
果 (effectiveness) 相关 性 评价 方法 。 此 外 ， 不 同 的 检索 任务 还 将 影响 人 工分 析 员 的 数量 、 分 
析 的 方式 以 及 效果 评价 的 具体 方法 。 例 如 ， 在 第 7 章 中 描述 了 导航 式 (navigational) 检索 ， 用 
户 使 用 这 种 检索 时 ， 只 需要 查看 一 个 相关 网 页 。 即 对 于 某 一 查询 ， 只 需要 反馈 一 个 相关 文档 。 

创建 一 个 新 的 测试 集 是 一 件 费 时 费力 的 任务 ， 特 别 是 为 了 获取 较 高 的 召回 率 ， 相 关 性 判 
断 工作 需要 相当 大 的 人 力 投入 。 当 测试 集 非常 小 的 时 候 ， 可 以 对 测试 集中 的 大 部 分 文档 进行 
相关 性 检测 。 然 而 ， 对 于 类 似 于 GOV2 这 样 大 规模 的 测试 集 ， 这 显然 是 不 可 能 完成 的 任务 。 在 
这 种 情况 下 ， 使 用 一 种 称 为 检索 池 (pooling) 的 技术 。 该 技术 将 不 同 的 搜索 引擎 (或 不 同 的 
检索 方法 ) 的 检索 结果 分 别 进行 排序 ， 并 选取 前 k 个 结果 (对 于 TREC 评 测 而 言 ，k 的 范围 一 般 
在 50~200 之 间 ) 汇 成 一 个 检索 池 。 该 检索 池 中 的 文档 都 可 看 作 查 询 相 关 的 文档 ， 这 些 文档 经 
过 去 重 后 以 随机 的 顺序 存在 ,并 协助 人 们 完成 相关 性 判断 。 检 索 池 为 每 个 查询 准备 了 大 量 的 
相关 反馈 文档 ， 如 表 8-2 所 示 。 然 而 ， 检 索 池 中 的 相关 文档 数量 是 不 完整 的 ， 一 个 新 的 检索 算 
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法 检索 出 的 所 有 相关 文档 并 不 一 定 都 在 检索 池 中 ， 这 显然 是 存在 问题 的 。 也 就 是 说 ， 如 果 一 
个 新 的 检索 算法 找到 很 多 查询 相关 的 文档 ， 然 而 这 些 文 档 车 不 在 检索 池 中 ， 则 将 被 视 为 查询 
无 关 的 文档 ， 也 因此 相应 地 ,低估 了 这 种 新 的 检索 算法 的 性 能 。 但 是 通过 对 TREC 数 据 的 详细 
考察 发 现 ， 该 数据 足以 对 新 的 检索 算法 进行 相关 性 判断 方面 的 比较 。 

TREC 数 据 对 于 评测 新 的 搜索 技术 是 非常 有 帮助 的 ， 但 是 它们 仍然 存在 一些 缺陷 。 例 如 ， 
对 于 评价 一 个 商业 网 站 的 产品 搜索 技术 而 言 ， 追 求 高 召回 率 以 及 使 用 新 闻 文 档 作 为 评测 集 显 
然 是 不 合适 的 。 当 然 ， 可 以 建立 新 的 TREC 任 务 评 估 这 些 新 的 应 用 ， 但 是 这 个 过 程 要 花费 几 个 
月 甚至 几 年 的 时 间 。 男 一 方面 ， 新 的 搜索 任务 和 新 的 数据 类 型 ， 例 如 博客 、 论 坛 以 及 人 工 标 
注 的 视频 ， 也 在 持续 不 断 地 发 展 。 但 幸运 的 是 ， 使 用 下 面 提 到 的 这 几 点 基本 的 准则 ， 为 任意 
的 应 用 任务 开发 一 套 新 的 评价 语 料 会 变 得 不 那么 困难 。 

1) 考察 一 个 文档 集 对 于 某 一 应 用 任务 而 言 是否 有 代表 性 ， 要 从 数量 、 大 小 以 及 文档 的 类 
型 等 几 个 方面 来 考察 。 比 如 ， 对 于 某 些 任 务 而 言 ， 可 能 要 列 出 所 有 的 真实 的 数据 集 ， 而 对 于 
某 些 任务 ， 只 需要 给 出 真实 数据 集 的 示例 或 者 很 少 的 一 部 分 数据 集 即 可 。 此 外 ， 如 果 目 标 应 
用 任务 具有 普 适 性 ， 那 么 需要 使 用 多 个 不 同类 型 的 数据 集 来 评测 。 例 如 ， 在 TREC 的 高 召回 率 
任务 中 ， 一 些 不 同类 型 的 新 闻 数 据 集 和 政府 数据 集 都 作为 评测 集 使 用 。 

2) 对 于 评测 集 所 使 用 的 查询 ， 应 该 选择 在 目标 应 用 中 用 户 提 交 的 有 代表 性 的 查询 。 这 些 
查询 一 般 来 自 相似 的 应 用 系统 的 查询 日 志 ， 或 者 通过 询 间 潜在 的 用 户 获取 查询 的 样 例 。 虽 然 
通过 上 述 方法 可 以 获取 大 量 的 查询 ， 但 是 相关 性 判断 却 成 为 一 个 最 主要 的 瓶颈 。 我 们 必须 获 
取 足 够 数量 的 查询 ， 以 验证 一 项 新 的 技术 是 否 具 有 显著 性 。TREC 实 验 的 一 项 分 析 显示 ， 若 使 
用 25 个 查询 且 使 用 MAP (8.4.2 节 将 介绍 ) 效果 评价 方法 对 两 个 搜索 引擎 系统 进行 评价 
MAP0.05 的 区 别 将 导致 13% 的 结论 错误 。 若 使 用 50 个 查询 ， 错 误 率 将 降低 为 4% 以 下 。 在 MAP 
评价 方法 中 ， 随 着 查询 数量 的 改变 ，0.05 的 差别 的 含义 是 不 同 的 。 如 果 使 用 如 8.6.1 节 中 所 提 
及 的 显著 性 检验 (significance test) 用 于 评价 两 个 系统 不 同 的 MAP， 当 使 用 50 个 查询 时 ， 
10% 的 相对 差别 足以 保证 一 个 较 低 的 错误 率 。 如 果 有 资源 或 应 用 系统 能 够 提供 相关 性 判断 ， 
则 能 够 通过 一 些 可 信赖 的 文档 结果 来 判别 是 否 与 查询 相关 ， 而 并 非 通过 现 有 的 查询 来 对 文档 
做 出 判断 。 有 一 些 策略 ， 例 如 ， 针 对 每 个 查询 (大量 的 查询 )， 分 别 从 排序 好 的 检索 文档 中 选 
取 一 小 部 分 (如 前 10 个 ) ， 或 者 选 出 哪些 能 够 很 好 地 区 分 几 个 对 比 系统 的 文档 等 ， 这 些 策 略 
都 已 经 证 实 了 是 有 效 的 。 然 而 ， 如 果 只 使 用 一 小 部 分 的 查询 ， 检 索 的 结果 只 能 说 是 象征 性 的 ， 
而 并 非 令 人 信服 的 。 在 这 种 情况 下 ， 查 询 至 少 要 很 有 代表 性 。 此 外 ， 由 于 要 以 应 用 为 目标 ， 
因此 查询 还 需要 具有 很 好 的 覆盖 性 。 例 如 ， 如 果 对 “地 域 检索 ”算法 进行 测试 ， 相 关 的 查询 
应 该 包含 很 多 不 同 种 类 的 地 域 信 息 。 

3) 查询 与 文档 的 相关 性 应 该 由 提出 问题 的 人 们 判断 ， 或 者 由 受过 专业 培训 的 人 员 来 判断 
(这 些 人 员 知 道 对 于 一 个 应 用 怎样 决定 文档 的 相关 性 ) 。 相 关 性 看 起 来 像 是 个 非常 主观 的 概念 ， 
”不同 的 人 对 相关 性 的 看 法 不 同 ， 有 时候 同一 个 人 在 不 同 的 时 间 段 的 判断 结果 也 是 不 同 的 。 虽 
然 存在 这 些 不 同 , 但 TREC 实 验 分 析 显 示 , 通过 相关 性 判断 ， 系 统 的 相对 性 能 还 是 非常 稳定 的 。 
换 句 话说， 相关 性 判断 的 不 同 并 没有 给 系统 对 比 实验 的 错误 率 带 来 很 显著 的 影响 。 查 询 相 关 
性 判断 的 文档 的 数量 ， 以 及 相关 性 判断 的 方法 ， 依 赖 于 效果 评价 方法 的 选择 。 对 于 大 部 分 应 
用 而 言 ， 人 们 更 容易 在 至 少 三 个 层次 的 相关 性 上 进行 选择 ， 即 直接 相关 (definitely relevant), 
直接 不 相关 (definitely not relevant) 和 可 能 相关 (possibly relevant) 。 当 然 ， 如 果 某 种 效果 评 
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价 方法 需要 的 话 ， 也 可 以 将 这 三 个 层次 转化 为 二 元 判定 ， 即 将 “可 能 相关 ”分 为 “直接 相关 ” 
或 “直接 不 相关 ”。 尽 管 如 此 ， 有 些 应 用 和 效果 评价 方法 ， 可 以 支持 多 于 3 个 层次 的 相关 性 。 

最 后 ， 非 常 有 必要 强调 一 点 ， 很 多 用 户 行为 可 以 被 看 作 模 糊 的 相关 性 假设 ， 如 果 这 些 可 
以 被 挖掘 ， 就 可 以 很 大 程度 上 降低 创建 测试 集 的 代价 。 例 如 ， 类 似 于 在 搜索 结果 列表 中 点 击 
某 一 篇 文档 的 用 户 行为 ， 以 及 将 该 文档 移动 到 文件 夹 的 行为 ， 或 者 发 送 到 打印 机 的 行为 等 都 
将 显示 ， 这 个 文档 是 查询 相关 的 。 在 前 面 的 章节 中 已 经 描述 了 查询 日 志和 点 击 链接 
(clickthrough) 可 以 用 来 支持 一 些 操作 ， 如 查询 扩展 和 拼写 纠 错 等 。 接 下 来 ， 将 讨论 查询 日 志 
在 搜索 引擎 评价 中 的 重要 角色 。 


8.3 日 志 


在 网 页 搜索 引擎 的 发 展 中 ， 捕 获 用 户 和 搜索 引擎 交互 的 查询 日 志 成 为 一 种 极其 重要 的 资 
源 。 从 评价 的 观点 来 看 ， 这 些 日 志 提供 了 大 量 的 数据 ， 来 显示 用 户 如 何 浏览 搜索 引擎 对 于 其 
一 查询 所 提供 的 结果 。 在 通用 的 网 页 搜索 应 用 中 ， 用 户 和 查询 的 数量 可 能 有 几 千 万 。 和 典型 
的 TREC 数 据 集中 几 百 个 查询 相 比 , 查询 日 志 数 据 能 够 潜在 地 支持 更 大 规模 的 和 更 真实 的 评价 。 
然而 ， 这 些 数 据 的 主要 缺点 是 ， 不 如 显示 的 相关 判断 精确 。 

一 个 额外 的 顾 虚 是 需要 维护 用 户 的 隐私 (Privacy) 。 当 查询 月 志 被 共享 、 为 研究 目的 发 布 ， 
或 者 用 来 构建 用 户 profile ( 见 6.2.5 节 ) 时 ， 这 成 为 一 个 尤为 重要 的 问题 。 可 以 采用 多 种 技术 
使 日 志 数 据 匿名 化 ， 例 如 删除 标识 信息 或 者 可 能 包含 个 人 数据 的 查询 ， 虽 然 这 对 于 某 些 应 用 
而 膏 ， 会 降低 日 志 的 可 用 性 。 

对 于 每 个 查询 而 言 ， 典 型 的 查询 日 志 包 括 下 面 的 数据 ; 

1) 用 户 标 识 或 者 用 户 会 话 标识 。 这 些 可 以 通过 多 种 方式 获得 。 如 果 用 户 登录 一 个 服务 ， 
使 用 搜索 工具 条 ， 基 至 通过 cookie， 这 些 信 息 使 得 搜索 引擎 能 识别 用 户 。 会 话 是 指 在 一 段 时 间 
内 ， 提 交 给 搜索 引擎 的 一 系列 查询 。 在 某 些 条 件 下 ， 仅 可 能 在 会 话 环 境 中 识别 出 用 户 。 

2) 查询 项 。 查 询 以 用 户 输入 的 形式 存储 。 

3) 结果 URL 列 表 ， 包 括 它们 的 排序 信息 以 及 是 否 被 点 击 9。 

4) 时 间 戳 。 时 间 惟 记录 查询 提交 的 时 间 。 额 外 的 时 间 惟 也 可 能 记录 某 一 具体 的 检索 结果 
被 点 击 的 时 间 。 

经 过 适当 的 转换 ， 日 志 中 的 点 击 数据 (第 3 条 ) 已 被 证 实 类 似 于 显 式 相关 性 判定 结果 ， 并 
且 已 经 被 应 用 于 训练 和 评测 搜索 引擎 。 有 关 用 户 交互 的 更 细致 的 信息 ， 能 够 通过 客户 端 应 用 
程序 获得 ， 例 如 浏览 器 上 的 搜索 工具 条 等 。 虽 然 这 些 信 息 并 不 总 是 可 用 ， 但 是 除了 点 击 数据 
外 的 其 他 一 些 用 户 行为 ， 也 被 证 实 可 以 很 好 地 对 相关 性 判断 作出 预测 。 其 中 两 个 最 好 的 预测 
是 页 面 驻 留 时 间 (dwell time) 和 搜索 退出 行为 。 页 面 驻 留 时 间 是 指 用 户 在 一 个 点 击 结果 上 花 
费 的 时 间 ， 从 开始 点 击 到 用 户 结束 页 面 或 者 退出 搜索 应 用 程序 。 搜 索 退 出 行为 是 用 户 退 出 搜 
索 应 用 程序 的 方式 ， 例 如 进入 另 一 个 URL， 关 闭 浏览 器 窗口 ， 或 者 超时 等 行为 。 其 他 行为 ， 
如 打印 页 面 ， 也 是 非常 好 的 预测 ， 但 是 不 经 常 发 生 。 

虽然 点 击 结果 页 面 和 相关 性 有 很 大 关系 ， 但 是 它们 不 能 直接 取代 显 式 相关 性 判定 的 地 位 ， 
因为 它们 高 度 依 赖 于 排 位 靠 前 的 或 者 有 其 他 特征 的 页 面 ， 例 如 受 欢 迎 的 或 者 有 好 的 摘要 的 结 


号 ”在 一 些 日 志 中 ， 只 记录 被 点 击 的 URL。 记 录 所 有 的 结果 能 产生 用 户 偏好 ， 并 提供 “反例 ”用 于 多 种 任务 。 
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果 页 面 。 这 意味 着 ， 即 使 与 查询 相关 的 页 面 排序 靠 后 ， 排 在 前 面 的 页 面 还 是 会 被 更 频繁 地 点 
击 。 消 除 这 种 偏见 的 一 种 方法 是 记录 用 户 点 击 数据 ， 来 预测 用 户 对 返回 文档 集 的 偏好 
(preference)。 用 户 偏好 在 7.6 节 中 首次 提 到 ， 用 来 训练 相关 排序 函数 。 比 如 ， 和 文档 4; 相 比 ， 
用 户 偏好 文档 41 则 意味 着 d 更 相关 ， 或 者 等 价 地 ， 它 应 该 排序 更 靠 前 。 偏 好 最 适合 于 文档 可 以 
有 多 个 相关 级 别 的 搜索 任务 ， 并 且 将 更 多 的 注意 力 集 中 于 用 户 相关 性 ， 而 不 是 话题 相关 性 。 
相关 性 判定 (多 级 或 者 二 级 ) 可 以 用 来 生成 偏好 ， 但 是 偏好 并 不 暗示 特定 的 相关 级 别 。 

通过 挖掘 一 些 策 略 ， 可 以 对 用 户 点 击 数据 进行 分 析 ， 来 发 现 用 户 的 使 用 偏好 。 这 些 策略 
通过 对 用 户 行为 进行 观察 ， 并 通过 实验 进行 验证 。 和 7.6 节 介绍 的 相似 ， 采 用 了 一 个 被 称 作 
Skip Above and Skip Next 的 策略 (Agichtein, Brill, Dumais, & Ragno, 2006)。 给 定 一 个 查询 的 
结果 集合 以 及 相关 排序 位 置 p 的 点 击 结果 ， 该 策略 假设 排序 在 p 之 前 的 所 有 设 有 被 点 击 的 结果 
不 如 p 的 结果 。 另 外 ， 紧 挨 着 点 击 结果 后 的 未 被 点 击 的 结果 ， 比 点 击 结果 更 不 相关 。 例 如 ， 下 
面 给 定 相关 排序 结果 列表 和 点 击 数据 : 

d, 

d, 

d; (点 击 ) 

d, 

该 策略 将 生产 下 面 的 偏好 : 

d, > d, 

d,>d, 

d,>d, 

既然 只 有 当 排 序 较 高 的 文档 被 忽略 时 才能 生成 偏好 ， 那 么 前 面 提 及 的 一 个 主要 的 仿 见 也 
被 消除 了 。 

该 “ 跳 转 ” 策 略 利 用 用 户 的 点 击 模式 产生 偏好 。 然 而 ， 用 户 行为 的 变化 ， 将 导致 获取 的 
数据 存在 噪声 和 不 一 致 的 现象 。 查 询 日 志 对 于 不 同 用 户 提交 的 相同 的 查询 ， 保 存 了 许多 组 实 
例 ， 这 些 点 击 数 据 可 以 被 汇总 起 来 ， 以 便 消 除 来 自 每 个 用 户 之 间 的 不 同 的 潜在 噪声 。 具 体 地 ， 
点 击 分 布 (click distribution) 信息 可 用 来 识别 哪些 是 理想 的 具有 更 高 点 击 频率 的 点 击 数据 。 
这 些 点 击 已 被 证 实 是 查询 相关 的 文档 。 对 于 给 定 的 查询 ， 可 以 对 排 在 p 位 置 上 的 结果 4， 使 用 
日 志 中 所 有 的 查询 实例 ， 计 算出 实际 的 点 击 频率 O(d, P)。 也 可 以 通过 对 所 有 的 查询 结果 进行 
平均 ， 计 算 排 在 位 置 p 的 期 望 点 击 频率 E(p)。 对 排 在 p 位 置 上 的 结果 d 的 点 击 误差 (click 
deviation) CD(d,p) 的 计算 方法 为 : 

CD(d, p)=O(d, p)—E(p) 

继而 使 用 CD(a, PAE “nthe” Achat, FARR RIES By SEH da. 

一 个 典型 的 评价 场景 是 ， 使 用 两 个 或 者 更 多 个 系统 对 一 个 给 定 的 查询 集合 的 检索 结果 
进行 比较 。 给 定 一 个 查询 ， 偏 好 是 决定 哪些 文档 与 之 相关 的 另 一 种 评价 方法 (相关 性 判断 
是 典型 的 方法 ) 。 对 于 每 个 系统 的 结果 列表 的 质量 而 言 ， 或 者 使 用 基于 偏好 ， 或 者 使 用 基于 
相关 性 判定 的 方法 进行 效果 评价 。 下 一 节 描 述 在 研究 和 系统 开发 中 ， 最 经 使 用 的 效果 评价 
方法 。 
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8.4 效果 评价 


8.4.1 召回 率 和 准确 率 

两 个 最 常用 的 评价 方式 是 召回 率 (recall) 和 准确 率 (precision) ， 在 Cranfield 的 研究 中 被 
提出 ， 用 来 总 结 和 比较 搜索 结果 。 对 于 一 个 查询 ， 直 觉 上 讲 ， 召 回 率 衡量 搜索 引擎 找到 所 有 
相关 文档 的 能 力 ， 准 确 率 衡量 它 排除 不 相关 文档 的 能 力 。 

这 些 度 量 方法 事先 假定 ， 对 于 一 个 给 定 的 查 表 8-3 基于 二 元 相关 性 的 简单 
询 ， 将 有 一 个 被 检索 (retrieved) 的 文档 集 ， 以 检索 定义 的 文档 集 
及 一 个 未 被 检索 (not retrieved， 其 余 的 文档 ) 的 相关 的 不 相关 的 
文档 集 。 显 然 ， 这 可 以 应 用 到 布尔 搜索 的 结果 中 ， | ans ahe 
但 是 我 们 将 要 看 到 ， 相 同 的 定义 也 能 用 于 相关 排 未 被 检索 ANB ANB 
序 搜索 中 。 另 外 ， 如 果 相 关 性 被 假设 为 二 元 的 ， 人 人 人， 
那么 对 于 一 个 查询 的 结果 ， 可 以 如 表 8-3 所 示 。 在 此 表 中 , 4 是 相关 文档 集合 ，4 是 不 相关 集合 ， 
B 是 被 检索 到 的 文档 的 集合 ，B 是 未 被 检索 到 的 文档 集合 。 运 算 符 站 给 出 两 个 集合 的 交集 。 例 
如 ，A 人 NB 是 相关 并 且 被 检索 到 的 文档 集合 。 

大 量 的 效果 评价 方法 可 以 使 用 上 面 的 统计 表 定 义 。 如 下 的 这 两 个 公式 是 经 常 使 用 的 : 


gaz -408l 
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其 中 1 ' | 表示 集合 的 大 小 。 换 句 话 说， 召回 率 是 相关 文档 被 检 出 的 比率 ， 准 确 率 是 计算 检 
出 的 文档 中 相关 文档 的 比率 。 使 用 这 些 度量 方式 的 一 个 潜在 假设 是 ， 该 任务 致力 于 检索 尽 可 
能 多 的 相关 文档 ， 并 使 检索 到 的 不 相关 文档 数量 达到 最 小 。 也 就 是 说 ， 即 使 对 某 个 查询 而 言 
有 500 篇 相关 文档 ， 用 户 也 倾向 于 将 它们 全 部 找到 。 

表 8-3 中 的 搜索 结果 类 似 于 7.2.1 节 提 到 的 二 元 分 类 器 的 输出 。 当 一 个 文档 被 检索 到 时 ， 即 
预测 该 文档 是 否 是 相关 文档 。 从 这 个 观点 来 看 ， 预 测 (或 者 检索 ) 中 有 两 类 错误 。 这 些 错 误 
被 称 作假 阳性 (false positive， 非 相关 文档 被 检 出 ) 和 假 阴 性 (false negative, FAK MR 
检 出 )。 召 回 率 和 假 阴 性 错误 类 型 相关 ， 但 是 准确 率 并 不 直接 和 假 阳 性 类 型 相关 。 相 反 ， 一 种 
被 称 作 虚报 率 2 (fallout) 的 评价 方式 ， 定 义 为 不 相关 文档 被 检 出 的 比率 ， 和 假 阳 性 相关 ， 
(AN BI 
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既然 给 出 的 虚报 率 和 召回 率 可 以 共同 评价 搜索 引擎 的 性 能 ， 为 什么 还 是 要 使 用 准确 率 来 
PERRE? 很 简单 ， 这 是 因为 准确 率 对 于 使 用 搜索 引 敬 的 用 户 更 有 意义 。 对 于 一 个 查询 ， 
如 果 有 20 篇 文档 被 检 出 ，0.7 的 准确 率 值 表 示 被 检 出 的 20 篇 中 有 14 篇 是 相关 的 。 另 一 方面 ， 虚 

日 ”在 分 类 和 信号 检测 文献 中 ， 错 误 通 常 包括 类 型 I 和 类 型 错误。 召回 率 经 常 被 称 作 真 阳性 率 ， 或 者 敏感 度 。 

虚报 率 被 称 作假 阳性 率 ， 或 者 虚 率 。 还 有 一 个 特殊 的 有 虚报 率 是 1 一 虚报 率 。 淮 确 率 被 称 作 正 预测 值 ， 并 且 经 
常用 于 医疗 诊断 测试 中 ， 其 中 正 测试 是 正确 的 概率 值 ， 非 常 重要 。 真 阳性 率 和 假 阳 性 率 被 用 于 刻画 ROC 
(receiver operating characteristic) 曲线 ， 随 着 鉴别 度 的 变化 ， 该 曲线 显示 了 这 两 个 量 之 闻 的 折 中 。 该 阐 值 


表现 为 分 类 器 作出 正 预 测 时 的 值 。 在 搜索 中 ， 该 益 值 反映 文档 排序 中 的 某 个 位 置 。 在 信息 检索 中 ， 召 加 
率 -准确 率 折线 图 一 般 取 代 了 ROC 曲 线 。 








虚报 率 = 








ARR 


报 率 总 是 很 小 ， 因 为 有 杰 多 非 粗 关 文 档 。 假 设 有 1 000 OOORFEMKKME, BRR RE 
6/1000000 = 0.000006。 如 果 系 统 的 准确 率 降 为 0.5， 这 会 很 容易 被 用 户 发 现 性 能 下 降 ， 但 若 使 
用 虚报 率 ， 则 为 0.900001， 如 此 小 的 数字 则 不 易 发 现 性 能 的 改变 。 由 于 语料库 中 大 多 数 文 档 都 
和 任意 给 定 的 查询 不 相关 ， 因 此 如 果 从 分 类 器 的 角度 来 对 这 一 搜索 任务 进行 评价 ， 将 会 导致 
与 直觉 相反 的 结果 。 这 是 因为 将 一 个 文档 定义 为 不 相关 文档 通常 是 正确 的 决策 ， 这 将 导致 被 
训练 用 来 寻找 最 小 化 分 类 错误 的 搜索 引擎 倾向 于 什么 都 不 检索 1 

F 值 度量 (F measure) 是 综合 召回 率 和 准确 率 的 效果 评价 方法 ， 它 用 来 评价 分 类 性 能 以 及 
一 些 搜索 引擎 应 用 的 性 能 。 它 的 好 处 是 使 用 单一 的 数字 总 结 系统 性 能 。 它 定义 为 召回 率 和 准 
确 率 的 调和 平均 数 (harmonic mean), ， 即 








为 什么 使 用 调和 平均 数 而 不 是 通常 的 数字 平均 数 昵 ?调和 平均 数 强调 较 小 的 数值 的 重要 
性 ， 而 数字 平均 数 受 蜡 常 值 影响 较 大 。 例 如 ， 如 果 返 回 几乎 整个 文档 数据 库 的 检索 结果 ， 那 
么 召回 率 是 1.0， 而 准确 率 趋 向 于 0。 算 术 平 均 数 是 0.5， 但 是 调和 平均 数 接近 0。 调 和 平均 数 显 
然 更 好 地 总 结 了 检索 结果 的 效果 人 9。 

这 里 讨论 的 大 多 数 检索 模型 的 输出 都 是 经 过 排序 的 文档 。 召 回 率 和 准确 率 这 两 种 度量 方 
法 ， 必 须 基于 检 出 的 排 好 序 的 文档 集合 。 一 种 可 能 是 在 排序 的 每 个 文档 位 置 上 ,计算 召 回 率 
和 准确 率 。 图 8-2 显 示 了 使 用 两 种 排序 算法 进行 检索 的 前 10 篇 文档 ， 以 及 对 于 一 个 有 6 篇 相关 
文档 的 查询 ， 在 每 个 排序 位 置 所 计算 的 召回 率 和 准确 率 的 值 。 这 些 排 序 反 映 了 不 同 的 检索 算 
法 或 者 搜索 引擎 的 输出 。 


EEBEEN -+ 
om BOBEBSOOOB 


召回 率 0.17 0.17 0.33 0.5 0.67 0.83. 0.83 0.83 0.83 1.0 
准确 率 1.0 0.5 0.67 0.75 0.8 0.83 0.71 0.63 0.56 0.6 


| EE 


召回 率 9.0 0.17 0.17 0.17 0.33 0.5 0.67 0.67 0.83 1.0 
准确 率 0.0 05 0.33 0.25 04 0.5 0.57 0.5 0.56 0.6 


图 8-2 针对 6 个 相关 文档 的 两 种 排序 方案 的 召 回 率 和 准确 率 


在 排序 位 置 10 (也 就 是 说 ， 当 有 10 篇 文档 被 检 出 时 ) ， 这 两 个 排序 有 相同 的 召回 率 和 准确 
率 。 召 回 率 是 1.0， 因 为 所 有 相关 文档 都 被 检 出 了 ， 准 确 率 是 0.6， 因 为 两 个 排序 算法 在 检 出 的 


昌 证 值 度量 的 更 通用 形式 是 加 权 调 和 平均 数 (weighted harmonic mean), BRA RE RA Be AE EEA 
相对 重要 性 。F = PR/(aR + (1 一 0)P)， 其 中 a 是 权重 。 它 经 常 被 变换 为 a = 1 (P + 1)， 其 给 出 Fp = (8 + 
1)PRAR + PP), 实际 上 ， 通 常 的 F 度 量 是 F1， 也 就 表示 其 中 的 召回 率 和 淮 确 率 同 样 重 覃 。 在 一 些 评测 中 ， 
准确 率 和 召回 率 通 过 变换 8 的 值 进行 强调 。 例 如 B> LIAR, 
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10 篇 文档 构成 的 集合 中 ， 都 包含 6 篇 相关 文档 。 然 而 ， 考 察 较 靠 前 的 排序 位 置 ， 第 一 个 排序 算 
法 明显 要 好 。 例 如 ， 在 排序 位 置 4 (4 篇 文档 被 检 出 ) ， 第 一 个 排序 算法 的 召回 率 是 0.5 (6 篇 相 
关 文 档 有 3 篇 被 检 出 )， 准 确 率 为 0.75 (4 篇 被 检 出 的 文档 中 ， 有 3 篇 是 相关 的 )。 第 二 个 排序 的 
召回 率 是 0.17 (1/6), 准确 率 为 0.25 (1/4), 

如 果 一 个 查询 有 更 多 的 相关 文档 或 者 相关 文档 零散 地 分 布 在 排序 中 ， 则 针对 每 个 排序 
位 置 的 召回 率 -准确 率 值 的 列表 将 会 很 长 ， 而 且 不 容易 进行 其 他 操作 。 因 此 ， 研 究 者 探索 出 许 
多 技术 ， 用 以 概述 排序 的 效果 。 第 一 种 技术 是 简单 地 在 一 些 预定 义 的 排序 位 置 上 计算 召回 率 一 
准确 率 值 。 事 实 上 ， 对 于 一 个 查询 ， 为 了 比较 两 个 或 者 更 多 的 排序 算法 ， 只 要 在 预定 义 排 序 
位 置 上 计算 出 准确 率 即 可 。 如 果 一 个 排序 位 置 z 的 准确 率 比 另 一 个 排序 高 ， 召 回 率 也 会 较 高 。 
这 通过 比较 图 8-2 相 应 的 召回 率 -- 准 确 率 值 可 以 看 出 。 这 一 效果 评价 方式 被 称 作 位 置 p 的 准确 率 
(precision at rank p)。 对 于 排序 位 置 p， 可 以 选取 许多 可 能 的 值 ， 但 由 于 用 户 比 较 关心 排序 靠 
前 的 输出 结果 ， 因 此 ， 最 常 使 用 的 是 P@10 和 P@20 的 准确 率 度量 。 注 意 ， 如 果 使 用 这 些 度量 ， 
则 瞳 示 搜索 任务 已 经 变 为 在 给 定 排序 中 找到 尽 可 能 相关 的 文档 ， 而 不 是 找到 尽 可 能 多 的 相关 
文档 。 因 此 ， 对 于 各 种 不 同 的 搜索 算法 而 言 ， 位 置 在 20 之 后 的 输出 结果 则 不 考虑 了 ， 此 外 ， 
也 不 需要 区 分 位 置 1 到 p 的 搜索 对 比 结果 的 位 置 的 不 同 。 然 而 对 于 某 些 任务 ， 它 们 也 可 能 比较 
重要 。 例 如 ， 图 8-2 中 的 两 个 排序 算法 ， 使 用 P@10 的 度量 结果 是 相同 的 ， 就 有 必要 考虑 位 置 
10 之 后 的 排序 结果 。 

另 一 个 评价 排序 算法 效果 的 方法 是 ， 当 召回 率 从 0.0 到 1.0 每 次 增加 0.1 这 一 标准 值 时 ， 计 
算 准 确 率 的 相应 变化 。 每 个 排序 算法 使 用 11 个 数字 表示 。 该 方法 的 优点 在 于 ， 可 以 用 于 评价 
所 有 排序 结果 中 的 相关 文档 ， 而 不 仅仅 是 那些 排序 靠 前 的 文档 。 然 而 ， 以 图 8-2 中 的 召回 率 - 准 
确 率 值 为 例 ， 很 上 明显， 在 这 些 标准 召回 率 值 上 ， 通 常 并 不 能 获得 上 述 方法 中 所 描述 的 准确 率 
的 值 。 在 此 例 中 ， 只 有 在 0.5 和 1.0 的 召回 率 处 计算 准确 率 。 为 了 获取 在 所 有 标准 召回 率 处 的 准 
确 率 的 值 ， 采 用 了 插值 (interpolation) 的 方法 9 。 由 于 该 值 被 用 做 对 多 个 查询 以 及 生成 召回 
率 -准确 率 图 求 平均 效果 的 基础 ， 因 此 在 下 一 节 中 将 详细 讨论 插值 。 

第 三 种 评价 排序 算法 的 度量 ， 也 是 最 常用 的 一 种 方法 ， 是 计算 当 一 个 额外 的 相关 文档 被 
检 出 (也 就 是 当 召 回 率 增加 ) 时 ， 准确 率 的 平均 值 。 如 果 一 个 相关 文档 由 于 某 种 原因 没有 
被 检索 到 ， 则 该 文档 对 于 平均 值 而 言 是 毫 无 贡献 的 。 对 于 图 8-2 中 的 第 一 个 排序 算法 ， 平 均 准 
确 率 (average precision) 4: 

(1.0 + 0.67 + 0.75 + 0.8 + 0.83 + 0.6)/6 = 0.78 

对 于 第 二 个 排序 为 : 

(0.5 + 0.4+0.5+0.57 + 0.56 + 0.6)/6 = 0.52 


平均 准确 率 这 种 度量 方法 有 许多 优点 ， 它 使 用 一 个 单一 值 来 衡量 所 有 相关 文档 的 排序 结 
果 ， 但 是 这 个 值 严 格 依赖 于 排序 位 置 较 靠 前 的 相关 文档 。 对 于 那些 目的 是 找到 尽量 多 相关 文 
档 的 任务 进行 评价 ， 这 是 一 种 合适 的 度量 方法 ， 然 而 ， 该 方法 仍然 反映 了 “排序 越 靠 前 ， 越 
ER” Z- Ew. 

对 于 某 一 查询 ， 这 三 种 评价 方法 可 以 对 排序 算法 的 效果 进行 总 结 。 为 了 对 检索 算法 进行 


全” 插值 指 的 是 任何 在 两 个 已 知 点 之 间 计 算 新 点 的 技术 。 
O 一 个 最 普遍 的 原因 在 于 , 我 们 仅 考 察 那 些 排序 位 置 舍 前 的 文档 (如 前 1000 篇 ), 而 这 些 文档 的 数量 非常 有 限 。 
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真实 的 评定 ， 必 须 使 用 多 个 查询 进行 测试 。 给 定 查询 集合 以 及 潜在 的 大 量 的 检索 结果 ， 需 要 
一 种 总 结 检索 算法 性 能 的 方法 ， 即 针对 整个 查询 集合 评价 排序 算法 的 性 能 。 在 下 一 节 中 ， 将 
讨论 在 很 多 评价 实验 中 使 用 到 的 平均 化 技术 。 


8.4.2 平均 化 和 插值 


在 下 面 对 平 均 化 技术 的 讨论 中 都 以 图 8-3 所 示 的 两 个 排序 为 例 。 这 些 排序 结果 分 别 是 使 
用 相同 的 排序 算法 对 两 个 不 同 的 查询 进行 的 检索 排序 。 平均 化 技术 的 目标 是 ， 通 过 某 个 查询 
集 来 总 结 某 个 排序 算法 的 排序 性 能 。 不 同 的 查询 经 常会 产生 不 同 数 量 的 相关 文档 ， 这 个 例子 
也 是 如 此 。 图 8-3 给 出 了 这 两 个 查询 的 前 10 个 相关 排序 位 置 的 召回 率 -准确 率 值 。 


| B B B B = 查询 1 的 相关 文档 
wn BUSUUBUUEE 


召回 率 0.2 02 04 04 04 06 06 06 0.8 1.0 
准确 率 10 0.5 0.67 0.5 0.4 0.5 0.43 0.38 0.44 0.5 


B o] g = 查询 2 的 相关 文档 
eee UBUUBUBUUU 


召回 率 0.0 0.33 0.33 0.33 0.67 0.67 10 10 10 10 
谁 确 率 0.0 0.5 0.33 0.25 0.4 0.33 0.43 0.38 0.33 0.3 


图 8-3 两 个 不 同 查 询 在 同一 种 排序 算法 上 的 召回 率 和 准确 率 值 


平均 准确 率 为 每 个 查询 的 相关 排序 结果 赋予 一 个 评价 数字 ， 从 多 个 查询 中 总 结 该 排序 算 
法 性 能 的 最 简单 的 途径 ， 就 是 对 这 些 数 字 进 行 平均 。 这 种 效果 评价 方法 ， 称 为 平均 准确 率 
(Mean Average Precision, MAPS ) , 目前 大 部 分 研究 文章 以 及 系统 评测 有 郑 使 用 这 种 评价 方法 。 
既然 它 是 基于 平均 准确 率 的 ， 也 就 意味 着 它 假设 对 于 每 个 查询 ， 用 户 期 望 找到 更 多 的 相关 文 
档 。 因 此 ， 虽 然 已 经 提 旱 许多 减少 相关 性 评定 工作 的 方法 (比如 Carterette 等 ，2006)， 但 是 使 
用 MAP 来 比较 检索 算法 或 者 系统 ， 仍 需要 大 量 的 文档 相关 性 判定 工作 。 

对 于 图 8-3 中 的 例子 ，MAP 计 算 如 下 ; 

查询 1 的 平均 准确 率 = (1.0 + 0.67 + 0.5 + 0.44 + 0.5)/5 = 0.62 

查询 2 的 平均 准确 率 = (0.5 +0.4+0.43)/3 = 0.44 

MAP = (0.62 + 0.44)/2 = 0.53 


但 ”这 昕 起 来 比 average average precision #f f ' 
四 “在 一 些 评测 中 ， 平 均 准 确 率 的 几 箱 平均 值 (Geometric Mean of the Average Precision, GMAP) 经 常用 来 
| 代 圭 算术 平均 值 。 由 于 它 对 平均 准确 率 的 值 求 积 ， 因 此 可 以 加强 对 较 低 性 能 的 查询 的 重视 。 它 定义 为 : 


GMAP -cepz los An 
n ie 


其 中 。n 是 查询 的 数量 ，4P 汗 查询 ;的 平均 准确 率 。 
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MAP 评 价 方 法 为 排序 算法 的 性 能 提供 了 一 个 非常 简洁 的 总 结 。 然 而 ， 在 通常 情况 下 ， 虽 
然 这 种 度量 方法 非常 有 效 ， 但 是 在 这 一 过 程 中 ， 有 时 会 丢失 太 多 的 文档 信息 。 召 回 率 -准确 率 
图 (Recall-precision graph)， 以 及 标 出 详细 数值 的 召回 率 -准确 率 表 格 ， 在 不 同 的 召回 率 水 平 
上 ， 能 够 给 出 更 详细 的 排序 算法 的 性 能 。 图 8-4 是 图 8-3 中 的 两 个 查询 的 排序 结果 的 召回 率 - 准 
确 率 图 。 每 个 查询 所 对 应 的 图 呈现 出 非常 不 同 的 形状 ， 很 难 比 较 。 为 了 生成 一 个 能 够 总 结 所 
有 查询 效果 的 召回 率 -准确 率 图 ， 图 8-3 中 的 召回 率 -准确 率 的 值 应 该 进行 平均 化 。 为 了 简化 平 
均 化 过 程 ， 每 个 查询 的 召回 率 - 准 确 率 值 被 转化 为 在 标准 召回 率 等 级 上 的 准确 率 值 ， 如 上 一 节 
所 提 及 的 。 基 于 此 ， 将 标准 召回 率 等 级 上 的 所 有 查询 的 准确 率 值 进行 平均 ， 来 对 排序 算法 进 
行 评价 9。 











0 0.2 0.4 0.6 0.8 1 
召回 率 


图 8-4 两 个 查询 的 召回 率 - 准 确 率 图 


标准 召回 率 等 级 是 0.0 到 1.0， 增 量 为 0.1。 为 了 获得 每 个 查询 在 这 些 召回 率 等 级 下 的 准确 
率 ， 例 如 图 8-3 中 启示 的 召回 率 -准确 率 数据 点 ， 必 须 进行 播 值 。 也 就 是 说 ， 需 要 基于 这 些 数 据 
点 定义 一 个 函数 ， 让 其 在 每 个 召回 率 等 级 处 都 有 值 。 目 前 有 许多 种 插值 的 方法 ,但 是 自从 
1970 年 以 来 ， 只 有 一 个 方法 被 用 于 信息 检索 评价 中 ， 该 方法 在 任何 标准 召回 率 等 级 R 处 ， 定 义 
准确 率 P 为 ， 
P(R)= max{P’; R'2>R A(R’, PIES} 


其 中 ，5S 是 观测 点 (R, P) 的 集合 。 在 任意 的 召回 率 等 级 处 ， 该 插值 定义 准确 率 为 在 较 高 
召回 率 等 级 处 ， 召 回 率 -准确 率 点 中 观测 到 的 最 大 准确 率 ， 产 生 如 图 8-5 所 示 的 阶梯 函数 。 

因为 搜索 引 获 并 不 完美 ,并 且 几乎 总 是 能 够 检索 到 一 些 不 相关 的 文档 ， 所 以 随 着 召回 率 
的 提高 ， 准 确 率 趋 于 降低 (虽然 这 不 总 是 正确 的 ， 如 图 8-4 所 示 )。 这 种 插值 方法 和 这 一 观察 
一 致 ， 它 产生 一 个 单调 下 降 的 函数 ， 这 意味 着 准确 率 的 值 总 是 随 着 召回 率 的 升 高 而 下 降 (或 


O ”在 文献 中 被 称 为 宏 平 均 (macroaverage)。 宏 平均 首先 为 每 个 查询 计算 兴趣 的 度量 ， 然 后 将 这 些 度 量 进行 平 
均 。 微 平均 (microaverage) 合并 了 来 自 查询 的 所 有 适当 的 数据 点 ， 并 且 基 于 合并 的 数据 点 计算 度量 。 例 
如 ， 在 相关 排序 位 置 5 处 的 微 平均 准确 率 为 Dm /sn ， 其 中 x 是 查询 i 的 前 5 个 文档 中 相关 文档 的 数量 ，n 
是 查询 的 数量 。 宏 平均 被 用 于 多 数 检索 评价 中 。 
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者 不 变 ) 。 该 播 值 也 为 0.0 召 回 率 等 级 定义 了 一 个 准确 率 的 值 ， 否 则 不 容易 理解 。 该 插值 方法 
背后 通常 的 直觉 是 ， 召 回 率 -准确 率 值 由 具有 最 好 的 准确 率 值 的 相关 文档 集 决定 。 例 如 在 查询 
1 中 ， 用 户 最 有 可 能 去 查看 前 3 个 文档 。 
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图 8-5 两 个 查询 的 插值 召回 率 一 准确 率 折 线 图 


表 8-4 在 标准 召回 率 等 级 上 使 用 插值 法 的 准确 率 值 


召回 率 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 
排序 1 1.0 1.0 1.0 0.67 0.67 0.5 0.5 0.5 0.5 0.5 0.5 
排序 2 0.5 0.5 0.5 0.5 0.43 0.43 0.43 0.43 0.43 0.43 0.43 
平均 0.75 0.75 0.75 0.59 0.47 0.47 0.47 0.47 0.47 0.47 0.47 


标准 召回 率 等 级 处 的 平均 准确 率 ， 通 过 简单 地 对 每 个 查询 的 准确 率 值 进行 平均 而 获得 。 
表 8-4 给 出 了 两 个 查询 的 排序 结果 经 插值 后 的 准确 率 值 ， 以 及 平均 准确 值 。 最 终 的 平均 召回 
率 一 准确 率 折线 图 如 图 8-6 所 示 。 
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召回 率 
图 8-6 基于 标准 召回 率 的 平均 召回 率 一 准确 率 折线 图 
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平均 召回 率 一 准确 率 折线 图 通过 简单 地 连接 标准 召回 率 等 级 处 的 平均 准确 率 点 画 出 ， 而 不 

是 使 用 另 一 个 阶梯 函数 。 当 对 多 个 查询 进行 平均 时 ， 平 均 召 回 率 一 准确 率 图 趋 于 逐渐 平滑 。 图 
8-7 给 出 了 一 个 使 用 50 个 查询 的 TREC 评 测 中 的 典型 的 召回 率 -准确 率 折线 图 。 
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图 8-7 TREC 中 50 个 相关 查询 的 典型 召回 率 -准确 率 折线 图 


8.4.3 关注 排序 靠 前 的 文档 


在 许多 检索 应 用 系统 中 ， 用 户 倾向 于 查看 排序 靠 前 的 相关 文档 。 在 网 络 检索 的 情况 下 ， 
这 意味 着 很 多 用 户 仅 查 看 检索 结果 的 第 一 页 或 前 两 页 。 除 此 之 外 ， 一 些 检索 任务 如 导航 式 检 
R ( 见 第 7 章 ) 或 是 问答 (question answering) 〈 见 第 1! 章 )， 仅 需要 一 个 单独 的 相关 文档 。 在 
这 种 状况 下 ， 召 回 率 并 不 是 一 个 合适 的 评价 指标 。 相 反 ， 我 们 更 关注 搜索 引擎 检索 到 的 相关 
文档 是 否 排 在 结果 列表 的 前 面 。 

针对 上 面 所 述 的 情况 ， 计 算 p 位 置 的 准确 率 的 评价 方法 (precision at rank p) 已 经 被 提出 ， 
其 中 pp 一 般 设 为 10。 这 种 评价 方法 易于 计算 ， 通 过 平均 多 个 查询 的 评价 结果 来 对 搜索 引擎 进行 
评价 ， 同 样 ， 这 种 评价 方法 也 非常 易于 理解 。 这 种 方法 最 主要 的 缺点 在 于 ， 对 于 给 定数 量 的 
相关 文档 ， 不 能 很 好 地 区 分 不 同 的 排序 情况 。 例 如 ， 如 果 在 检索 返回 的 前 10 篇 文档 中 ， 只 有 
一 个 相关 文档 ， 根 据 P@10 的 计算 方法 ， 这 篇 文档 位 于 排序 中 的 第 1 位 和 第 10 位 ， 准 确 率 结果 
是 一 样 的 。 其 他 对 排序 位 置 较为 敏感 的 评价 方法 随后 将 介绍 。 

排序 倒数 (reciprocal rank) 评价 方法 主要 用 于 上 面 所 述 的 只 需要 返回 一 个 单独 的 相关 文 
档 的 情况 。 它 定义 为 返回 第 一 个 相关 文档 位 置 的 倒数 。 平 均 排序 倒数 MRR (mean reciprocal 
rank) 是 针对 一 组 查询 的 排序 倒数 平均 值 。 例 如 ， 对 于 一 个 查询 而 言 ， 假 设 返回 的 前 五 个 文 
档 的 情况 分 别 为 an、dr、dn、dn、dn， 其 中 dn 是 不 相关 的 文档 ， 而 dr 是 相关 文档 ， 那 么 排序 
倒数 值 为 12=0.5。 即 使 有 更 多 的 相关 文档 被 检索 出 来 ， 像 这 样 的 一 个 排序 ，dn、dr、dn、dr、 
dn， 排 序 倒数 的 值 依然 是 0.5。 排 序 倒 数 评 价 方法 对 排序 的 位 置 非常 敏感 。 排 序 倒数 从 1.0 降 到 
0.5， 即 从 排序 第 一 的 位 置 降 到 第 二 的 位 置 ， 而 针对 排序 dn、dn、dn、dn、dr， 将 得 到 1/5=0.2 
的 排序 倒数 值 。 对 于 这 两 个 排序 结果 的 MRR 值 为 (0.5+0.2)/2=0.35。 

对 于 网 络 搜索 评价 及 其 相关 的 应 用 (Jirvelin & Kekäläinen, 2002) 而 言 ，DCG 
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(discounted cumulative gain) 是 一 种 较为 普遍 的 评价 方法 。 这 种 方法 基于 两 点 假设 : 

1) 高 相关 性 的 文档 比 边 缘 相 关 的 文档 要 有 用 得 多 。 

2) 一 个 相关 文档 的 排序 位 置 越 靠 后 (例如 ， 在 排序 结果 列表 的 最 后 ) ， 对 于 用 户 的 价值 
就 越 低 ， 因 为 它们 很 少 会 被 用 户 查看 。 

这 两 点 假设 产生 了 一 种 新 的 评价 方法 ， 这 种 方法 为 相关 性 设 定 等 级 ， 作 为 衡量 一 篇 文档 
的 有 用 性 或 者 叫 增益 (gain) 的 标准 。 这 种 增益 从 排序 靠 前 的 结果 开始 计算 ， 在 靠 后 的 排序 
位 置 上 ， 或 许 会 减少 或 大 打折 扣 (discounted)。DCG 方 法 是 在 一 个 特定 的 排序 p 的 前 提 下 ， 计 
算 总 的 增益 。 具 体 地 ， 它 定义 为 : 

DCG, =rel + 5 rel, 
44 log, i 

其 中 ，rel 指 的 是 检索 回 的 文档 中 排序 为 i 的 文档 的 相关 性 等 级 。 例 如 ， 已 有 报告 指出 网 络 
检索 评价 往往 使 用 一 种 六 分 等 级 制 CAA “Bad” Bil) “Perfect”, (i.e.0<rel;<5)) 的 人 工 相 关 性 
评价 方法 。 如 果 使 用 二 元 等 级 制 的 相关 性 评价 ， 则 reli 被 指定 为 0 或 1。 

上 面 公 式 中 的 分 母 log2i 是 一 种 损失 因子 (discount or reduction factor) ， 在 增益 公式 中 ， 
经 常 被 使 用 到 。 使 用 这 种 损失 因子 并 不 存在 理论 上 的 原因 ， 虽 然 它 确实 提供 了 一 个 相对 平滑 
的 削减 S98。 通过 变化 公式 中 的 对 数 的 基数 ， 这 种 损失 可 以 变 得 更 加 锐利 或 平 消 。 如 当 基 数 为 2 
时 ， 排 序 为 4 的 损失 值 为 /12， 顺 序 为 8 的 损失 值 为 13。 例如， 考察 下 面 的 一 组 排序 ， 其 中 每 个 
数字 代表 排序 位 置 ， 每 个 文档 范围 为 0~3 (不 相关 ~ 非常 相关 ) 的 相关 性 等 级 : 

3,2,3,0,0,1,2,2,3,0 

下 面 的 这 些 数字 代表 了 在 其 对 应 排序 位 置 上 的 增益 。 这 些 损失 增益 为 : 

3,2/1, 3/1.59, 0,0, 1/2.59, 2/2.81, 2/3, 3/3.17, 0= 

3,2, 1.89, 0, 0,0.39,0.71,0.67,0.95,0 

在 每 个 排序 位 置 上 的 DCG， 通 过 求 和 这 些 数 字 而 构成 ， 即 为 : 

3,5,6.89, 6.89, 6.89, 7.28, 7.99, 8.66, 9.61, 9.61 

类 似 于 p 位 置 上 的 准确 率 的 计算 ，p 的 具体 取 值 根据 评价 方法 而 确定 ，DCG 评 价 方法 将 会 
首先 对 每 个 查询 的 p 位 置 上 的 DCG 进 行 计算 ， 继 而 将 这 些 值 进行 平均 。 由 于 这 种 评价 方法 的 注 
意 力 主要 放 在 排序 靠 前 的 文档 上 ， 因 此 DCG 的 值 会 比较 小 。 例 如 ， 在 位 置 5 或 10 上 ,DCG@5 
的 值 为 6.89，DCG@10 的 值 是 9.61。 然 而 ， 不 同 的 查询 ， 会 返回 不 同 数量 的 相关 文档 ， 为 了 便 
于 平均 不 同 查询 的 评价 值 ， 可 以 通过 将 每 个 排序 位 置 上 的 PCG 值 与 该 查询 的 最 优 排序 的 DCG 
值 进行 比较 ， 得 出 一 个 归 一 化 的 值 。 例 如 ， 对 于 某 一 查询 ， 如 果 排 序 结果 包 含 所 有 的 相关 文 
档 ， 则 最 优 排序 的 增益 值 表现 如 下 : 

3,3,3,2,2,2,1,0,0,0 

继而 可 以 获取 理想 的 DCG 值 ， 


日 ”在 某 些 出 版 书籍 中 ，PCG 还 定义 为 





DCG, = Sen —1)/log(l +2) 


对 于 二 元 相关 性 判断 ， 这 两 种 定义 方法 是 相同 的 ， 但 对 于 多 元 的 相关 性 判断 而 言 ， 上 面 公式 的 定义 对 检索 
出 的 高 相关 性 的 文档 增强 了 权重 。 这 一 版 本 的 计算 方法 被 很 多 搜索 引擎 公司 所 使 用 ， 也 正 是 因为 如 此 ， 这 
种 方法 或 许 会 成 为 标准 方法 。 
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3, 6, 7.89, 8.89, 9.75, 10.52, 10.88, 10.88, 10.88, 10.88 

可 以 通过 将 真实 的 DCG 值 除 以 理想 的 DCG 值 来 归 一 化 DCG 值 ， 表 示 为 NDCG 
(normalized discounted cumulative gain) {Ñ : 

1, 0.83, 0.87, 0.76, 0.71, 0.69, 0.73, 0.8, 0.88, 0.88 

注意 ， 在 任何 排序 的 位 置 上 的 NDCG 值 ， 都 是 < 1 的 。 总 而 言 之 ， 对 于 一 个 给 定 的 查询 ， 
NDCG¥ XH: 


p 
NDCG, = k a 
P 


其 中 IDCG 是 针对 某 一 查询 的 理想 的 DCG 值 。 


8.4.4 使 用 用 户 偏好 


在 8.3 节 介绍 了 如 何 从 查询 日 志 中 挖 据 用 户 偏好 。 用 户 偏好 已 经 被 用 来 训练 排序 算法 ， 还 
有 人 建议 将 其 作为 评价 文档 相关 性 的 另 一 种 方法 。 但是， 目前 还 没有 标准 的 、 基 于 用 户 偏好 
的 效果 评价 方法 。 

一 般 而 言 ， 使 用 偏好 描述 的 两 个 排序 结果 ， 可 以 通过 Kendall r 系数 (如 进行 比较 。 如 果 己 
是 两 种 排序 中 一 致 的 偏好 的 数量 ， 而 QO 代表 不 一 致 的 数量 ，Kendall 的 t 被 描述 为 ; 

P-Q 

“PQ 

这 个 估计 值 在 1 ( 当 两 个 排序 中 用 户 偏好 全 部 一 致 时 ) 到 -1 ( 当 偏 好 全 部 不 一 致 时 ) 之 间 
变化 。 然 而 ， 当 偏好 来 自 于 用 户 点 击 的 数据 (clickthrough data) 时 ， 只 有 一 部 分 的 排序 是 可 
用 的 。 实 验 结果 显示 ， 这 部 分 信息 可 以 被 用 来 学 习 高 效 的 排序 算法 ， 这 也 意味 着 可 以 用 这 种 
方式 进行 排序 算法 性 能 的 评价 ， 当 然 并 不 是 使 用 全 部 的 用 户 偏 好 来 计算 P 和 Q。 一 种 新 的 排序 
方法 可 以 通过 对 比 其 产生 的 排序 结果 与 已 知 的 用 户 偏 好 ， 来 对 排序 算法 进行 评价 。 例 如 ， 如 
果 从 点 击 的 数据 中 学 习 到 了 15 个 偏好 ， 排 序 的 结果 和 其 中 的 10 个 一 致 ， 那 么 度量 为 (10 一 
5)/15=0.33。 虽 然 这 种 计算 看 起 来 很 合理 ， 但 并 没有 研究 证 明 ， 这 种 效果 评价 方法 在 系统 对 比 
中 是 有 效 的 。 

对 于 偏好 来 自 二 元 相关 判决 的 情况 ，BPREFe 方 法 被 证 明 可 以 较 好 地 利用 部 分 的 点 击 数 
据 信 息 对 排序 算法 作出 评价 ， 并 给 出 类 似 于 召回 率 -准确 率 方法 〈 例 如 MAP) 的 评价 结果 。 在 
这 种 方法 中 ， 相 关 文 档 和 不 相关 文档 的 数量 进行 了 一 定 的 平衡 ， 来 促进 不 同 查询 结果 之 间 的 
平均 。 对 于 一 个 返回 了 R 个 相关 文档 的 查询 ， 我 们 仅 考 察 前 R 个 不 相关 文档 ， 这 也 相当 于 使 用 
尺 xR 个 用 户 偏好 。 基 于 此 ， 该 方法 定义 为 ; 


1 N, 
BPREF == > 1- 一 生 
RS R 


其 中 ，4d, 是 一 个 相关 文档 ，N, 给 出 了 排序 高 于 4, 的 不 相关 文档 的 数量 (考察 不 相关 文档 集 
R)。 如 果 从 偏好 的 角度 来 解释 ，N 即 是 对 不 一 致 的 用 户 偏 好 数量 的 统计 (对 于 二 元 相关 性 判 
定 而 言 )。 由 于 R x R 是 需要 考察 的 偏好 数量 ，BPREF 的 另 一 种 定义 为 : 





T 





日 ”二 元 偏好 。 
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BPREF = —— 
P+@Q 
这 种 定义 和 Kendall 的 tf 定义 非常 类 似 。 主 要 的 不 同 在 于 BPREF 在 0~1 之 间 变 动 。 由 于 
BPREF 是 一 个 有 效 的 效果 评价 方法 ， 那 么 这 将 意味 着 同样 的 评价 方法 或 Kendall’'s Tt 评 价 方 法 ， 
可 以 综合 多 元 相关 性 等 级 和 用 户 偏好 进行 计算 。 


8.5 效率 评价 


相 比 效果 评价 而 言 ， 一 个 搜索 系统 的 效率 衡量 起 来 好 像 要 相对 容易 一 些 。 所 考虑 的 大 部 
分 问题 可 以 使 用 一 个 计时 器 来 自动 完成 ， 而 并 非 需 要 进行 代价 较 高 的 相关 性 判别 。 尽 管 如 此 ， 
像 效 果 评 价 一 样 ， 我 们 需要 明确 搜索 引擎 效率 的 哪些 方面 需要 进行 评估 。 表 8-5 给 出 了 一 些 常 
用 的 评价 方法 。 

最 常 使 用 的 效率 评测 方法 是 基于 查询 流量 (query throughput) 的 方法 ， 记 为 每 秒 处 理 
的 查询 数量 。 两 个 搜索 引擎 系统 只 有 在 同一 个 测试 集 、 同 一 个 查询 集合 并 在 同样 的 硬件 条 
件 下 进行 评测 ， 该 评测 方法 的 结果 才 具 有 可 比 性 。 尽 管 如 此 ， 在 相似 的 硬件 条 件 下 ， 也 可 
以 进行 较为 粗糙 的 对 比 。 作 为 效率 评价 的 一 种 单一 数值 表示 方法 ， 由 于 基于 查询 流量 的 评 
测 方法 是 符合 人 们 直觉 的 ， 并 且 反 映 了 人 们 想 要 借助 于 效率 数量 (efficiency numbers) 来 
解决 其 他 较为 普遍 的 问题 的 想法 ， 因 此 是 一 种 不 错 的 方法 。 真 正 的 系统 用 户 希 望 借 助 于 流 
量 的 数量 估计 系统 容量 ， 继 而 决定 是 否 需 要 更 多 的 硬件 资源 来 处 理 大 量 的 用 户 查询 。 由 于 
很 容易 去 衡量 每 秒 钟 传递 给 服务 器 的 查询 的 数量 ， 所 以 也 很 容易 确定 系统 能 否 很 好 地 处 理 
现 有 的 服务 。 


表 8-5 一 些 重要 的 效率 评测 方法 的 定义 


评价 方法 描述 

索引 时 间 开 销 用 于 评价 在 一 个 特定 系统 上 建立 文档 索引 需要 的 时 间 

索引 处 理 器 时 间 开 销 用 于 评价 建立 文档 索引 所 需 的 时 间 ， 与 索引 时 间 开 销 相 似 ， 但 不 包括 IO 等 待 时 间或 
系统 并 行 获得 的 速度 

查询 流量 每 种 钟 处 理 查询 的 数量 

查询 延迟 用 户 提 交 一 个 查询 之 后 ， 在 获得 返回 结果 之 前 需要 等 待 的 时 间 ， 以 毫秒 计算 。 可 以 
使 用 平均 值 来 进行 评测 ， 但 中 值 或 百分比 通常 更 好 

临时 索引 空间 创建 索引 所 使 用 的 临时 磁盘 空间 的 数量 

索引 大 小 用 于 存储 索引 文件 的 存储 空间 的 大 小 


仅仅 使 用 流量 来 评估 搜索 引擎 的 性 能 的 主要 问题 在 于 ， 它 并 不 捕捉 延迟 (latency)。 当 用 
户 向 系统 提交 一 个 查询 时 ， 延 迟 衡量 了 该 系统 从 接受 查询 到 反馈 相关 文档 的 时 间 差 。 心 理学 
研究 显示 ， 用 户 考 虑 某 种 操作 并 付 诸 实施 的 时 间 少 于 150 毫 秒 。 如 果 超 过 了 这 个 界限 ， 用 户 将 
会 消极 地 对 待 他 们 察觉 到 的 延迟 。 

这 让 我 们 重新 回 到 查询 流量 的 话题 上 来 ， 由 于 延迟 和 查询 流量 并 不 是 正 交 的 ， 一 般 可 以 
通过 增加 延迟 来 改进 流量 ， 而 减少 系统 延迟 则 会 导致 较 差 的 流量 。 可 以 考虑 下 面 这 样 一 个 形 
象 的 例子 : 私人 厨师 和 在 饭馆 点 餐 之 间 的 区 别 。 私 人 厨师 拥有 最 小 的 可 能 延迟 为 你 准备 饭菜 ， 
这 是 因为 在 工作 时 间 ， 她 没有 其 他 的 任务 ， 因 此 将 全 部 的 精力 用 于 准备 你 的 饭菜 。 遗 憾 的 是 ， 
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闲 状态 。 而 餐厅 拥有 较 高 的 流量 操作 ， 它 有 大 量 的 厨师 同时 为 不 同 的 订餐 而 服务 。 拥 有 较 多 
的 订餐 和 较 多 的 厨师 无 疑 会 产生 一 定 的 经 济 规模 ， 例 如 ， 一 个 单独 的 厨师 可 能 同一 时 间 准 备 
不 同 的 订餐 。 请 注意 ， 这 些 厨 师 可 以 很 好 地 同时 处 理 这 些 订 餐 ， 是 因为 一 些 延 迟 已 经 被 加 入 
进 了 这 些 订餐 中 : 并 不 是 厨师 们 看 到 一 个 订餐 就 立即 准备 ， 他 们 往往 会 等 几 分 钟 看 看 是 否 有 
大 点 同样 的 餐 品 。 这 个 结果 显示 ， 厨 师 们 可 以 很 高 流量 地 准备 餐 品 ， 但 是 需要 一 些 延 迟 作为 
代价 。 

查询 处 理 使 用 了 和 上 述 相同 的 方式 。 我 们 可 以 很 轻松 地 构建 一 个 搜索 引擎 系统 ， 使 得 它 
一 次 仅 处 理 一 个 查询 ， 即 将 所 有 的 资源 倾 其 所 能 地 给 予 目 前 的 查询 ， 就 像 私 人 厨师 将 其 所 有 
的 工作 时 间 给 予 了 他 唯一 的 顾客 。 这 种 系统 的 流量 较 低 ， 因 为 每 次 只 能 处 理 一 个 查询 ， 这 会 
导致 一 些 资源 的 空 疗 。 一 种 完全 相反 的 方法 是 大 批量 的 处 理 查询 。 这 种 系统 首先 为 到 来 的 查 
询 重新 排序 ， 这 样 ， 那 些 拥 有 共同 表达 部 分 的 查询 可 以 同时 进行 处 理 ， 从 而 节省 宝贵 的 处 理 
时 间 。 尽 管 如 此 ， 互 动 型 的 用 户 会 比较 讨厌 为 他 们 的 查询 处 理 而 等 待 。 

与 效果 评价 中 的 召回 率 和 准确 率 一 样 ， 低 延迟 和 高 流量 对 于 一 个 检索 系统 而 言 ， 都 是 非 
常 优质 的 属性 。 然 而 ， 这 两 个 指标 总 是 互相 冲突 的 ， 不 可 能 在 同时 均 达 到 最 大 值 。 在 一 个 实 
际 的 搜索 引擎 系统 里 ， 查 询 流量 扮演 的 角色 并 不 是 一 个 变量 ， 而 是 一 个 基本 需求 ， 系统 需要 
处 理 用 户 提交 的 每 一 个 查询 。 剩 下 的 两 个 变量 是 延迟 〈 用 户 等 待 一 个 回复 的 时 间 ) 和 硬件 损 
耗 〈 需 要 多 少 个 处 理 器 来 完成 搜索 问题 ) 。 一 种 常见 的 描述 延迟 的 方式 是 使 用 百分比 的 方式 ， 
如 : “99% 的 查询 会 在 100 毫 秒 之 内 完成 "。 搜 索引 擎 设计 者 可 以 增加 硬件 资源 ， 直 至 满足 基本 
需求 。 . 

查询 滞 量 和 延迟 是 最 明显 的 系统 效率 评价 方法 ， 当 然 ， 也 应 该 考虑 索引 的 代价 。 例 如 ， 
给 定 足 够 的 时 间 和 空间 ， 我 们 可 以 存储 每 个 可 能 长 度 的 查询 。 这 样 的 搜索 系统 会 拥有 完美 的 
查询 流量 及 查询 延迟 ， 但 是 存在 巨大 的 存储 和 索引 代价 。 因 此 ， 需 要 衡量 索引 结构 的 大 小 ， 
以 及 创建 索引 所 耗费 的 时 间 。 因 为 索引 通常 是 一 个 分 布 式 的 过 程 ， 我 们 需要 知道 在 索引 和 运 
行 中 所 使 用 的 处 理 器 时 间 。 由 于 倒 排 索 引 需 要 进行 临时 存储 ， 所 以 如 何 确定 所 用 的 临时 存储 
的 大 小 ， 也 是 一 件 值得 研究 的 任务 。 

8.6 训练 、 测 试 和 统计 
8.6.1 显著 性 检验 

在 评价 搜索 引擎 的 性 能 时 ， 通 常会 产生 一 些 评测 的 数据 结果 ， 例 如 平均 的 准确 率 值 或 是 
NDCG 值 等 。 为 了 检测 这 些 数据 值 是 否 可 以 很 好 地 区 分 两 个 检索 算法 或 搜索 引擎 ， 显著 性 检 
验 是 一 种 很 好 的 检测 方法 。 其 中 ， 每 种 显著 性 检验 是 基于 零 假设 (null hypothesis) 的 。 一 个 
典型 的 搜索 引擎 对 比 实验 ， 一 般 表 现 为 使 用 某 种 评价 方法 对 比 由 两 个 不 同 检索 算法 产生 的 排 
序 结果 。 在 这 里 ， 零 假设 也 就 意味 着 两 个 检索 算法 在 效果 评价 方面 没有 什么 差别 。 而 其 他 的 
假设 (alternative hypothesis) 意 味 着 二 者 之 间 存 在 差别 。 事 实 上 ， 给 定 两 种 检索 算法 A 和 了 B， 
假设 A 是 一 种 基线 算法 ，B 是 一 种 新 的 算法 ， 通 常 通过 对 比 来 展示 B 算 法 在 某 种 效果 评价 方法 
中 要 比 A 算 法 好 ， 而 不 是 简单 地 发 现 二 者 的 不 同 。 对 于 这 两 种 检索 算法 而 言 ， 它 们 是 基于 相同 
的 查询 集合 的 ， 这 就 是 所 谓 的 匹配 对 (matched pair) 实验 。 
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如 果 仅 仅 根 据 一 个 查询 的 结果 ， 我 们 不 能 简单 地 认为 算法 B 好 于 算法 A， 这 是 因为 ， 在 其 
他 所 有 查询 中 ，A 或 许 好 于 B。 那 么 ， 我 们 选择 在 多 少 个 查询 上 面 进行 两 个 算法 的 对 比 呢 ? Bil 
如 ， 在 200 个 测试 集中 ， 如 果 B 算 法 在 90 多 的 实例 上 要 好 于 A 算 法 ， 那 么 我 们 应 该 足以 确定 B 算 
法 在 这 种 评测 方法 中 效果 好 于 A， 但 是 这 种 确定 的 程度 如 何 衡量 呢 ? 显著 性 检验 就 是 一 种 衡量 
这 种 确定 程度 的 方法 。 

一 般 而 言 ， 根 据 两 个 算法 的 实验 结果 ， 显 著 性 检验 会 否定 零 假设 ， 而 支持 其 他 的 假设 
(例如 ， 显 示 出 算法 Bt 比 A 好 )。 否 则 ， 我 们 说 零 假设 不 能 被 否定 (例如 B 或 许 并 不 比 A 好 )。 正 
如 任何 二 元 决策 过 程 ， 显著 性 检验 可 以 产生 两 种 类 型 的 错误 。 类 型 I 错误 是 当 零 假设 被 否定 的 
时 候 ， 结 果 正 确 。 类 型 I 错误 即 ， 当 零 假设 成 立时 ， 结 果 错 误 S。 显 著 性 检验 通常 用 power 进 
行 描述 (衡量 )， 也 就 是 该 检验 能 够 正确 地 否定 零 假 设 的 概率 (人 和 例如， 决定 B 算 法 比 A 好 )。 换 
句 话说 ， 一 个 带 有 较 高 power 的 显著 性 检验 ， 将 会 降低 类 型 HI 的 错误 产生 的 机 会 。 随 着 样 例 大 
小 的 增加 ， 显 著 性 检验 的 值 也 会 相应 增加 ， 这 里 样 例 大 小 指 的 是 实验 中 查询 的 数量 。 同 样 ， 
随 着 样 例 的 增加 ， 还 会 降低 类 型 I 错 误 的 几率 。 

在 一 组 特定 的 查询 下 ， 使 用 显著 性 检验 对 两 种 检索 算法 进行 对 比 的 流程 如 下 所 示 : 

1) 对 于 每 个 查询 ， 使 用 这 两 种 检索 算法 输出 排序 结果 ， 并 对 排序 结果 进行 效果 评价 。 

2) 对 于 每 个 查询 ， 对 两 个 排序 结果 的 效果 评价 值 计 算 验 证 统计 值 。 其 中 ， 验 证 值 依赖 于 
显著 性 检验 的 具体 方法 。 继 而 ， 对 该 验证 值 进行 分 析 ， 确 定 是 否 应 该 否定 零 假设 。 

3) 对 于 多 个 查询 的 验证 值 ， 统 计 计 算 P 值 ，P 值 指 的 是 当 零 假设 成 立 的 情况 下 ， 验 证 值 出 
现 的 概率 。 较 小 的 P 值 意味 着 零 假 设 并 没有 成 立 。 

4) MRP <a, SR GEARS) 被 否定 ， 应 该 选取 其 他 种 类 的 假设 (例如 ，B 算 法 
比 A 算 法 高 效 )。o 的 值 通常 比较 小 ， 一 般 是 0.05 或 0.1， 为 的 是 减少 类 型 I 错误 。 

换 名 话说， 假定 零 假 设 成 立 ， 如 果 获 取 一 个 具体 的 验证 统计 值 的 概率 很 小 ， 那 么 我 们 将 
否定 这 种 假设 。 因 此 ， 结 论 变 为 ， 排 序 算法 B 比 基线 算法 A 更 加 高 效 。 

验证 统计 值 和 相应 的 准确 率 P 值 一 般 使 用 表格 或 标准 的 统计 软件 进行 计算 。 下 面 讨 论 的 显 
著 性 检验 由 Galago 提 供 。 

上 面 描述 的 流程 通常 称 为 单 侧 检验 (one-sided test) 或 单 尾 检验 (one-tailed test) ， 因 为 
我 们 想 验 证 B 比 A 好 。 如 果 我 们 仅仅 尝试 验证 B 和 A 之 间 存 在 区 别 ， 将 是 双 侧 检验 (two-sided 
test) 或 双 尾 检验 (two-tailed test) ，P 值 也 将 被 加 倍 计算 。“side” 和 “tail” 指 的 是 概率 分 布 
的 尾部 。 例 如 ， 图 8-8 展 示 了 假定 零 假 设 成 立 ， 检 验 统计 的 可 能 值 的 分 布 图 。 其 中 ， 分 布 图 中 
的 阴影 部 分 就 是 单 侧 检验 的 否定 部 分 。 如 果 一 个 显著 性 检验 产生 了 验证 统计 值 x (如 图 8-8 所 
示 )， 那 么 零 假 设 将 被 否定 ， 这 是 因为 获取 这 个 值 或 更 高 的 值 〈 指 的 是 P 值 ) 的 概率 ， 比 获取 
显著 边界 值 0.05 的 概率 要 低 。 

在 搜索 引擎 评价 中 使 用 最 普遍 的 几 种 显著 性 检验 是 t 检 验 (t-test) 9、 威 氏 符 号 秩 次 检验 
(Wilcoxon signed-rank test) 及 符号 检验 (sign test) 。 为 了 解释 这 些 检验 ， 我 们 将 使 用 表 8-6 中 
显示 的 数据 ， 这 些 数 据 显 示 了 两 种 检索 算法 A 和 B 对 于 10 个 查询 的 排序 的 效果 评价 值 。 表 中 的 
数值 是 人 工 赋予 的 ， 一 般 采 用 了 平均 准确 率 或 是 NDCG 的 效果 评价 方法 ， 例 如 ， 在 0~ 100 的 


O 与 8.4.1 节 中 关于 错误 的 讨论 进行 对 比 。 
日 ”也 称 为 Student’s t-test， 其 中 的 student 是 发 明 者 的 笔名 ， 而 并 非 使 用 该 检验 的 人 的 类 型 。 


198 a ae 


范围 之 内 (而 非 0~ 1 之 内 ) 。 这 张 表 还 展示 了 算法 B 和 基线 算法 A 在 效果 评价 值 上 的 差别 。 该 
实验 数据 中 的 少量 的 查询 ， 并 不 是 检索 实验 中 典型 的 实验 数据 。 





检验 统计 值 x 
图 8-8 假定 零 假 设 成 立时 ， 验 证 统计 的 可 能 值 的 分 布 图 。 阴 影 部 分 是 单 侧 检验 的 否定 部 分 


表 8-6 针对 10 个 查询 ， 人 工 赋予 两 种 检索 算法 (A 和 B) 效果 评价 值 。 
“B-A” 列 给 出 了 两 个 算法 之 间 效 果 评 价值 的 不 同 





一 般 而 言 ，! 检 验 首先 假定 采样 的 数值 符合 正 楚 分 布 。 在 这 个 匹配 对 实验 中 ， 这 种 假设 指 
的 是 这 两 种 算法 的 效果 评价 值 之 间 的 差 值 是 正 态 分布 的 一 个 样 例 。 这 种 情况 下 的 零 假设 是 指 
效果 评价 值 之 间 的 差 值 分 布 的 平均 值 为 0。 两 个 数值 之 间 的 检验 的 公式 为 : 
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其 中 ，B-4 代表 差 值 的 平均 值 ，op_。 代 表 标 准 差 S (deviation)，N 是 样 例 的 大 小 (查询 
的 数量 )。 对 于 表 8-6 中 的 数据 ， B-A=21.4, 0s_4=29.1, t=2.33。 对 于 单 侧 验 证 ， 上 例 得 到 0.02 
的 P 值 ， 这 在 假设 ac=0.05 时 ， 可 以 证 明 这 两 个 算法 的 差别 是 显著 的 。 因 此 ，t 检 验 可 以 否定 零 
假设 ， 并 最 终 得 出 B 比 A 有 效 的 结论 。 

在 搜索 评价 中 使 用 t 检 验 ， 有 两 点 需要 注意 。 第 一 点 ， 尽 管 当 N 很 大 时 ， 算 法 A 和 B 效 果 评 
价值 的 差 值 的 分 布 接近 于 正 态 分 布 ， 但 是 采样 数据 需要 满足 正 态 分 布 的 假设 对 于 一 些 效果 评 
价 方法 而 言 ， 并 不 适合 。 然 而 ， 近 期 的 实验 结果 却 验证 t 检 验 的 有 效 性 ， 即 在 TREC 数 据 上 面 ， 
t 检 验 产生 了 和 随机 性 检验 (randomization test) 类 似 的 实验 结果 (Smucker, Allan, & 
Carterette, 2007) 。 其 中 ， 随 机 性 检验 并 没有 假设 数据 符合 正 态 分 布 ， 并 且 是 非 参 数 检验 
(nonparametric test® ) 里 面 最 有 影响 力 的 一 种 检验 方法 。 尽 管 如 此 ， 和 t 检 验 相 比 ， 随 机 性 检 
验 的 计算 代价 很 大 。 


日 ”对 于 一 组 数值 4， 标准 偏离 值 可 以 通过 公式 | -EPN 进行 计算 ， 其中， 元 代表 均值 。 
O ” 非 参 数 的 检验 比 起 参数 检验 ， 对 数据 以 及 潜在 的 数据 分 布 考 虐 较 少 。 
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第 二 点 需要 注意 的 是 ， 考 察 与 效果 评价 方法 相关 的 度量 层次 。t 检 验 (以 及 随机 性 检验 ) 
假定 待 评价 的 数据 在 一 定 的 区 间 尺 度 上 进行 衡量 。 这 就 意味 着 可 以 对 数据 进行 排序 (例如 ， 
效果 值 为 54 要 好 于 效果 值 为 53)， 此 外 ， 数 值 之 间 的 差 值 也 是 有 意义 的 〔 例 如， 效果 值 为 80 和 
70 之 间 的 差别 和 为 20 与 10 之 间 的 差别 是 相同 的 ) 。 有 些 人 质疑 效果 评价 是 一 种 顺序 度量 表 
(ordinal scale) ， 他 们 认为 差 值 的 尺度 衡量 并 不 是 显著 的 特征 。 威 氏 符号 秩 次 检验 以 及 符号 检 
验 都 是 非 参 数 验证 ， 对 于 效果 评价 值 都 不 需要 做 什么 假设 。 因 此 ， 他 们 并 不 使 用 数据 中 的 所 
有 信息 ， 并 且 也 很 难 去 发 掘 两 个 算法 的 显著 性 区 别 。 换 名 话 讲 ， 如 果 效 果 评 价值 确实 满足 使 
用 t 检 验 的 条 件 ， 那 么 威 氏 符号 秩 次 检验 和 符号 检验 这 两 种 方法 则 具有 较 低 的 影响 力 。 

威 氏 符号 秩 次 检验 假定 算法 A 和 B 之 间 的 效果 评价 值 的 差 值 可 以 被 排序 ， 但 是 差 值 的 尺度 
并 不 重要 。 这 也 意味 着 ， 例 如 ， 对 于 表 8-6 中 的 查询 8 的 差 值 将 会 被 排 为 第 一 位 ， 这 是 由 于 它 
是 非 0 绝对 值 中 最 小 的 数值 ， 但 是 在 这 种 检验 中 ， 尺 度 2 并 没有 被 直接 使 用 。 验 证 公式 为 : 


we dR 

其 中 ，R: 是 符号 秩 次 ，N 是 不 为 0 的 差 值 的 个 数 。 为 了 计算 符号 秩 次 ， 差 值 根据 它们 的 绝 
对 值 进 行 升序 排序 ， 继 而 赋予 它们 排序 后 的 位 置 值 。 其 中 ， 排 序 值 加 入 了 差 值 原始 的 符号 。 
这 种 检验 方法 的 零 假 设 指 的 是 正 排 序 值 的 个 数 将 会 和 负 排 序 值 的 个 数 相同 。 
例如 ， 表 8-6 中 的 9 个 非 0 的 差 值 ， 将 它们 的 绝对 值 进行 排序 ， 如 下 所 示 : 
2,9, 10, 24, 25, 25, 41, 60, 70 
基于 上 面 的 描述 ， 它 们 相应 的 符号 秩 次 为 : 
—1, +2, +3, -4, 45.5, +5.5, +7, +8, +9 
将 这 些 有 符号 的 排序 值 累加 起 来 ， 得 到 w=35。 对 于 单 侧 验证 而 言 ， 将 获得 0.025 的 近似 P 
这 意味 着 零 假 设 可 以 在 边界 设 为 a=0.05 的 显著 层次 (significance level) 上 被 否定 。 
符号 检验 比 威 氏 符号 秩 次 验证 更 加 深入 ， 并 且 完 全 忽略 了 差 值 的 尺度 (magnitude of the 


differences) 。 对 于 这 种 验证 而 言 ， 零 假设 是 指 P> A) = P(A> B)= > 换 句 话说 ， 期 望 通过 


一 个 很 大 的 样 例 集 ， 显 示 B 比 A“ 好 ”的 数据 对 的 数 景 和 A 比 BE“ 好 ”的 数据 对 的 数量 是 相同 
的 。 验 证 公式 也 简单 地 表现 为 B 好 于 A 的 数据 对 的 数量 。 对 于 搜索 评价 而 言 ， 问 题 在 于 在 效果 
评价 方法 中 ， 确 定 什么 样 的 差别 算是 “好 的 差别 ”。 可 以 假设 ， 即 使 在 平均 准确 率 或 是 NDCG 
效果 评价 值 中 较 小 的 差别 ， 例 如 0.51 与 0.5 进 行 对 比 ， 如 此 微小 的 差别 也 是 显著 的 。 当 然 也 会 
存在 某 种 风险 ， 即 这 个 差 值 虽然 导致 了 算法 B 比 A 要 高 效 得 多 ,但 事实 上 对 于 用 户 而 言 ， 并 不 
是 显而易见 的 。 因 此 ， 需 要 为 效果 评价 值 选择 一 个 适合 的 闪 值 。 例 如 ， 旧 红外 法 则 (old rule 
of thumb) 即 为 对 于 平均 准确 率 而 言 ， 至 少 存 在 5% 的 差别 才 会 是 显著 的 差别 (保守 而 言 ， 为 
10%)。 这 将 意味 着 0.51 一 0.5=0.01 的 差别 将 被 认为 是 有 符号 验证 的 一 种 束缚 。 另 一 方面 ， 如 果 
我 们 选择 的 效果 评价 方法 是 p@10， 任 何 的 差别 都 可 以 考虑 为 显著 的 ， 这 是 因为 可 以 对 排名 前 
10 位 的 新 增加 的 相关 文档 做 出 最 直接 的 反馈 。 

基于 .上面 的 描述 ， 对 于 表 8-6 中 的 数据 ， 将 会 考虑 任何 的 差别 都 是 显著 的 。 这 也 意味 着 ， 
10 个 查询 中 将 有 7 个 查询 使 用 B 算 法 比 A 算 法 好 。 相 应 的 P 值 是 0.17， 也 就 是 在 10 个 审判 中 发 气 
7 个 “成 功 ”的 可 能 性 ， 其 中 ,“ 成 功 ”的 概率 为 0.5 (类 似 于 抛 硬币 )。 使 用 符号 验证 ， 很 难 
否定 零 假 设 。 因 为 在 有 符号 的 验证 中 ， 有 那么 多 关于 效果 评价 的 信息 被 丢弃 ， 很 难 展示 两 个 


值 


> 


200 8# 





算法 的 不 同 ， 并 且 需 要 更 多 的 查询 来 增加 验证 的 有 效 性 。 另 一 方面 ， 除 了 t 检 验 ， 符 号 验证 可 
以 被 用 来 提供 更 多 的 用 户 关 注 的 方面 。 通 过 {检验 以 及 符号 检验 ， 已 经 可 以 证 明 出 某 种 算法 是 
否 高 效 ， 或 许 使 用 不 同 的 效果 评价 方案 ， 结 论 会 看 起 来 更 加 合理 。 


8.6.2 设置 参数 值 


几乎 每 一 种 排序 算法 都 需要 调整 参数 来 改进 最 终 的 效果 。 例 如 ，BM25S 算 法 包括 参数 k1、 
k2 和 b 用 于 项 加 权 ， 而 使 用 Dirichlet 平 清 的 查询 似 然 度 包 括 参数 4。 网 络 搜索 的 排序 算法 也 可 
能 含有 大 量 的 参数 ， 为 相关 的 特征 提供 权重 。 这 些 参数 值 的 设 定 对 检索 的 最 终 效果 具有 极 大 
的 影响 ， 对 于 某 一 应 用 获取 最 佳 性 能 的 那 组 参数 值 ， 不 一 定 对 另 一 个 应 用 或 甚至 于 另 一 个 不 
同 的 数据 集 有 效 。 除 了 提高 搜索 引擎 性 能 方面 ， 选 择 正 确 的 参数 意义 重大 ， 在 比较 两 个 搜索 
引擎 算法 时 ， 也 是 很 重要 的 一 部 分 。 当 与 一 个 拥有 较 差 参数 值 的 基线 算法 进行 对 比 时 ， 在 测 
试 集 上 通过 调整 确定 参数 而 获取 最 优 性 能 的 一 个 算法 ， 或 许 会 比 它 的 实际 效果 优秀 得 多 。 

为 了 最 优化 算法 以 及 对 比 不 同 算法 ， 最 合适 的 设置 参数 的 方法 是 ， 使 用 一 个 训练 集 以 及 
一 个 测试 集 。 训 练 集 被 用 来 训练 最 佳 的 参数 值 ， 测 试 集 被 用 来 证 实 这 些 参数 的 有 效 性 以 及 对 
比 各 种 排序 算法 。 训 练 集 和 测试 集 分 属 两 个 不 同 的 文档 集 、 查 询 以 及 相关 性 判断 ， 尽 管 它们 
有 可 能 是 由 一 个 集合 分 割 而 成 的 。 例 如 在 TREC 实 验 中 ， 训 练 集 通常 是 前 几 年 评测 时 所 用 的 文 
档 集 、 查 询 及 相关 性 判断 。 当 没有 是 够 大 的 数据 集 时 ， 交 叉 检 验 (cross-validation) 将 数据 集 
分 割 为 K 个 子 集 。 其 中 一 个 子 集 用 来 做 测试 集 ， 剩 余 的 k--1 个 用 于 做 训练 集 。 不 断 循 环 使 用 其 
中 的 每 个 子 集 作为 测试 集 ， 最 终 得 出 的 最 佳 参 数值 是 k 轮 参数 值 的 平均 值 。 

使 用 训练 集 和 测试 集 可 以 帮助 避免 过 拟 合 (overfitting) 的 问题 (在 第 7 章 中 提 及 过 ) ， 这 种 
过 拟 合 的 现象 表现 为 某 一 组 参数 值 被 调整 得 完全 符合 一 组 特殊 的 数据 集合 。 如 果 这 组 特殊 的 
数据 是 在 应 用 中 需要 被 检索 的 唯一 的 数据 ， 那 么 这 组 参数 肯定 是 合适 的 ;但 是 更 通常 的 一 种 
情况 是 ， 训 练 语 料 仅 是 大 量 实际 数据 的 一 部 分 样 例 ， 在 搜索 时 偶尔 才 会 遇 到 。 因 此 ， 过 拟 合 
将 会 导致 参数 值 不 能 广泛 地 适用 于 其 他 的 数据 。 换 名 话说 ， 过 拟 合 就 是 在 训练 语 料 上 算法 的 
性 能 改进 了 ， 而 在 测试 语 料 上 的 性 能 反而 变 糟 了 。 

最 公平 的 对 比 两 种 检索 算法 的 方法 是 ， 使 用 训练 语 料 分 别 为 这 两 种 算法 获取 最 佳 的 参数 
值 ， 继 而 将 这 些 参 数值 应 用 于 测试 集中 。 在 训练 语 料 的 多 轮 检 索 任务 中 ， 利 用 效果 评价 方法 
调整 参数 值 ， 而 在 最 终 进行 算法 对 比 时 ， 可 看 作 使 用 效果 评价 方法 衡量 测试 集中 单独 的 一 轮 
检索 任务 的 实验 结果 。 检 索 实验 中 最 忌讳 的 事情 ， 就 是 无 论 在 什么 情况 下 ， 都 要 避免 在 训练 
集 上 进行 测试 。 这 种 行为 是 典型 的 人 为 增强 检索 算法 性 能 的 方法 。 当 一 种 算法 在 某 种 方式 上 
使 用 测试 集 进行 训练 ， 那 么 在 与 其 他 算法 对 比 时 肯定 存在 问题 。 虽 然 这 个 问题 听 起 来 很 容易 
避免 ， 但 是 在 一 些 复杂 的 实验 里 ， 总 会 以 一 些 潜在 的 方式 出 现 。 

给 定 一 个 训练 数据 集 ， 有 很 多 技术 可 以 为 一 个 特定 的 效果 评价 方法 找到 最 优 的 参数 设置 。 
最 普通 的 方法 是 简单 地 使 用 强制 法 (brute-force)， 穷 举 可 能 的 参数 。 这 种 方式 需要 对 参数 不 
断 地 进行 小 的 变动 (a parameter sweep) ， 继 而 需要 进行 大 量 的 检索 。 虽 然 这 种 方式 对 于 所 有 
的 参数 进行 全 部 考证 是 不 可 行 的 ， 但 是 它 对 于 任何 给 定 的 效果 评价 方法 ， 足 以 确保 找到 最 佳 
的 参数 设置 。7.6 节 中 就 详细 描述 了 为 大 量 的 候选 参数 有 效 选 取 最 优 值 的 一 个 比较 成 熟 的 过 程 。 
当 需 要 优化 的 公式 满足 一 定 的 条 件 5 ， 通 过 这 种 方法 以 及 一 些 类 似 的 最 优化 技术 ， 就 会 找 出 

O Ait, ARMA ee (RSM, MAY SAOEGAR, SOFTEE RH), A eee 

公式 是 一 个 满足 下 面 的 限制 的 连续 函数 : AxA < Af) 4(1-Af,), WFO, 1] 中 所 有 的 4。 
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最 优 的 参数 值 。 由 于 讨论 的 很 多 效果 评价 方法 不 会 满足 这 些 条 件 ， 所 以 需要 使 用 一 些 不 同 的 
公式 来 求解 最 优化 问题 ， 当 然 这 时 很 多 参数 值 不 能 确保 是 最 优 的 。 尽 管 如 此 ， 这 依然 是 一 个 
很 活跃 的 研究 领域 ， 人 们 在 持续 不 断 地 尝试 参数 优化 的 新 方法 。 


8.6.3 在 线 测试 


到 自前 为 止 ， 上 述 所 有 评价 方法 都 是 在 假定 训练 集 和 测试 集 离线 处 理 完毕 的 前 提 下 进行 
的 。 也 就 是 说 ,假设 所 有 的 训练 集 和 测试 集 数 据 已 经 提前 准备 好 了 。 尽 管 如 此 ， 当 使 用 真实 
的 搜索 引 列 时 ， 很 有 可 能 需要 利用 实时 通信 量 ， 即 在 线 的 数据 进行 测试 〈 或 训练 ) 。 这 通常 称 
为 “在 线 测试 ”(online testing)。 例 如 ， 假 设 你 只 是 开发 了 一 个 新 的 广告 搜索 算 靶 ， 那 么 ， 评 
价 该 算 靶 时 与 其 使 用 人 工 相关 评价 算法 ， 倒 不 如 直接 使 用 该 算法， 对 比 该 算法 与 其 他 基线 算 
法 所 产生 的 经 济 效 益 。 这 种 利用 实时 通信 量 (在 线 数据 ) 以 及 真实 用 户 行为 的 方法 ， 使 得 测 
试 不 同 的 搜索 引擎 模块 (如 测试 排序 算法 、 查 询 推 荐 算法 、 网 页 摘要 生成 算法 等 ) 成 为 可 能 。 
这 非常 类 似 于 我 们 前 面 讲 到 的 日 志 。 然 而 ， 使 用 日 志 的 评价 是 对 旧 的 信息 的 一 种 回顾 式 的 评 
价 ， 而 在 线 测 试 却 是 使 用 了 实时 的 数据 。 

在 线 测试 有 很 多 优点 。 首 先 ， 它 允许 真实 的 用 户 参与 到 系统 中 。 这 些 用 户 参 与 提供 了 一 
些 很 重要 的 信息 ， 如 用 户 点 击 数 据 等 都 可 以 被 用 来 对 系统 进行 各 种 评价 。 其 次 ， 在 线 测试 并 
不 片面 ， 这 是 因为 这 种 评价 方法 是 在 真实 的 用 户 数据 集 上 进行 的 。 由 于 那些 能 够 反映 真实 用 
户 数据 和 通信 量 的 测试 集 很 难 被 获取 ， 因 此 这 些 在 线 的 数据 集 是 非常 有 价值 的 。 最 后 ， 由 于 
在 线 测 试 不 需要 任何 人 员 去 进行 人 工 相 关 检验 ， 因 此 可 以 很 廉价 地 产生 大 量 的 数据 集 。 

但 遗憾 的 是 ， 在 线 测 试 也 存在 一 些 缺 陷 。 其 中 ， 主 要 的 缺陷 在 于 采集 的 数据 噪声 比较 大 。 
这 是 因为 导致 用 户 在 线 行为 的 原因 有 很 多 种 。 例 如 ， 如 果 一 个 用 户 没 有 点 击 某 个 搜索 结果 ， 
这 并 不 意味 着 该 搜索 结果 是 不 相关 的 。 有 时 修 ， 用 户 反 而 点 击 了 一 个 不 相关 的 广告 链接 ， 或 
者 对 点 击 的 结果 感觉 没什么 兴趣 ， 或 者 离开 去 吃饭 了 。 基 于 此 ， 在 线 测 试 搜集 的 数据 需要 经 
过 去 除 噪声 ， 进 而 才能 产生 有 意义 的 结论 。 在 线 测 试 的 另 一 个 缺陷 是 ， 它 将 使 得 实时 通信 量 
以 一 种 不 利 的 方式 进行 潜在 的 改变 。 如 果 换 用 一 种 新 的 算法 进行 在 线 测 试 ， 则 有 可 能 大 幅度 
地 降低 检索 的 效果 ， 从 而 导致 用 户 的 离开 。 基 于 这 种 原因 ， 在 线 测试 必须 谨慎 执行 ， 以 免 消 
极地 影响 用 户 体验 。 一 种 降低 在 线 测试 对 用 户 数 量 的 影响 的 方法 是 ， 仅 在 一 小 部 分 数据 上 进 . 
行 测试 ， 如 实时 通信 量 的 1% 或 5% 的 数据 量 。 最 后 ， 在 线 测试 仅 是 提供 了 一 种 特殊 类 型 的 数 
据 一 一 用 户 点 击 数据 。 像 我 们 在 本 章 前 面 所 提 到 的 ， 点 击 数据 对 于 评价 搜索 引擎 的 性 能 总 是 
不 那么 理想 ， 这 是 因为 数据 总 是 含有 噪声 而 且 具 有 片面 性 。 尽 管 如 此 ， 对 于 某 一 特定 的 搜索 
引擎 评价 算法 ， 如 点 击 率 2 和 收益 情况 ， 在 线 测试 还 是 非常 有 用 的 。 

因此 ， 在 线 视 试 是 一 种 有 用 的 、 廉 价 的 训练 或 测试 新 算法 的 评价 方法 ， 尤 其 对 于 那些 可 
以 使 用 点 击 数据 进行 评价 的 算法 。 但 是 ， 需 要 特别 注意 ， 以 确保 采集 的 数据 被 正确 地 分 析 以 
及 不 影响 整个 系统 的 用 户 体验 。 


8.7 基本 要 点 


在 本 章 中 ， 我 们 展示 了 一 系列 的 效果 和 效率 评价 方法 。 那 么 ， 它 们 中 的 哪 一 个 是 最 好 的 
评价 方法 ? 答案 是 ， 没 有 哪个 方法 对 于 任意 的 搜索 应 用 是 万 能 的 ， 尤 其 是 对 于 效果 评价 而 言 。 


号 ” 某 一 词 项 被 点 击 的 次 数 在 总 点 击 次 数 中 的 比例 。 
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因此 ， 一 个 搜索 引擎 应 该 通过 多 尝试 一 些 评价 方法 ， 将 它们 的 组 合作 为 最 终 的 评价 。 这 样 可 
以 全 面 地 对 搜索 引擎 的 不 同方 面 进行 评价 。 下 面 所 有 的 评价 方法 和 验证 方法 几乎 都 不 需要 用 
外 的 条 件 ， 可 以 直接 执行 

.MAP_ 一 使 用 一 个 数字 进行 评价 ， 是 一 种 很 受 欢 迎 的 方法 ， 基 二 检索 池 的 相关 性 判断 

. NDCG 平 均值 _ “基于 排序 的 位 置 给 出 一 个 数字 进行 评价 ， 强 调 排序 靠 前 的 文档 ， 仅 公 

在 一 个 特定 的 排序 个 数 内 (通常 指 的 是 10) 才 需 要 进行 相关 性 判断 。 

。 召回 率 -准确 率 折线 图 一- 比 单一 的 数字 的 评价 方法 传递 了 更 多 的 信息 ， 使 用 检索 池 的 

相关 性 判断 。 

* P@10 一 一 强调 排序 靠 前 的 文档 ， 很 容易 理解 ， 相 关 性 判断 仅 限于 排序 的 前 10 个 。 

使 用 MAP 和 召回 率 -- 准 确 率 折线 图 方法 ， 需 要 在 相关 性 判断 方面 得 到 更 多 的 协助 ， 而 从 
上 面 的 分 析 中 我 们 获知 ，NDCG 评 价 和 P@10 评 价 只 有 在 考察 排序 位 于 前 10 位 的 相关 文档 时 ， 
才 会 考虑 使 用 相关 性 判断 。 

所 有 的 这 些 评价 应 该 相对 于 一 个 或 更 多 的 基线 搜索 算法 ， 而 被 执行 。 执 行 一 个 效果 评价 
方案 ， 而 没有 一 个 好 的 基线 算法 ， 这 一 般 是 说 不 通 的 。 这 是 因为 最 终 得 到 的 效果 值 强烈 依赖 
于 查询 和 测试 集 数 据 的 组 合 。t 检 验 可 以 用 于 平均 准确 率 、NDCG 以 及 P@10 的 显著 性 检验 。 

所 有 的 标准 评价 方法 和 显著 性 检验 都 可 以 使 用 NIST 提 供 的 程序 trec_eval。 它 们 也 作为 
Galago 的 一 部 分 被 提供 。 | 

除了 这 些 评价 方法 ， 通 过 与 基线 系统 的 对 比 ， 将 改进 的 以 及 改 错 的 查询 的 数量 进行 总 结 ， 
也 是 很 有 用 的 一 件 事情 。 图 8-9 给 出 了 TREC 任 务 的 一 次 评测 后 的 总 结 ， 对 于 某 种 评价 方法 
(通常 是 MAP) ， 其 中 随 着 改进 的 不 同 的 百分比 ， 查 询 的 数量 呈现 出 如 图 的 分 布 。 图 中 的 每 个 
柱状 代表 了 在 给 定 当前 的 百分比 下 ， 好 于 (或 坏 于 ) 基线 系统 的 查询 的 数量 。 这 也 提供 了 一 
个 简单 的 可 视 的 总 结 图 ， 展 示 了 改进 的 查询 要 多 于 改 错 的 查询 ， 并 且 这 些 改进 是 很 可 观 的 。 
通过 对 “较为 可 观 的 ”的 改进 设 定 阐 值 ， 符 号 检验 可 以 对 这 些 数据 进行 显著 性 检验 。 





<-100%{-100%, [-75%, [-50%, [-25%, {0%, {25%, [SO%, [75%, > 100% 
-75%] -50%] -25%] 0%] 259%] 50%] 75%] 100%] 


优 劣 百分比 
图 8-9 查询 效果 改进 的 样 例 分 布 
通过 上 述 介绍 的 一 系列 评价 方法 ， 开 发 者 和 用 户 都 将 对 搜索 引擎 的 评价 有 了 更 清晰 的 认 
识 ， 如 该 搜索 引擎 哪些 方面 表现 得 好 ， 哪 些 方面 需要 进一步 改进 等 。 有 时 候 很 有 必要 去 查看 
个 别 的 查询 ， 以 便 更 好 地 了 解 是 什么 原因 引发 了 该 算法 的 这 种 排序 结果 。 像 图 8-9 的 查询 数据 ， 

















4 HI) FoF 203 








有 助 于 识别 出 这 些 有 意义 的 查询 。 
参考 文献 和 深入 阅读 

虽然 这 个 问题 已 经 探讨 了 40 多 年 了 ， 但 搜索 引擎 中 的 效果 评价 依旧 是 -- 个 热点 话题 ， 每 
年 的 主要 会 议 中 都 有 大 量 的 文章 发 表 。 在 van Rijsbergen (1979) 的 文章 中 ， 关 于 评价 的 那 一 
章节 给 出 了 信息 检索 中 效果 评价 方法 的 历史 发 展 流程 。 另 一 个 通常 认为 比较 有 价值 的 参考 文 
献 是 TREC 的 书籍 (Voorhees&Harman，2005)， 该 书 描述 了 TREC 的 测试 集 以 及 所 使 用 的 评价 
流程 ， 以 及 它们 经 历 了 哪些 演变 。 

Saracevic (1975) 和 Mizzaro (1997) 所 写 的 这 两 篇 文章 ， 是 关于 经 典 的 话题 相关 性 的 最 
佳 的 综述 性 文章 。 蓝 取 相 关 性 判断 的 过 程 以 及 检索 实验 的 可 靠 的 方法 ， 都 在 TREC 那 本 书 中 有 
所 讨论 。 Zobel (1998) 的 研究 显示 ， 一 些 相关 性 判断 的 不 完整 性 并 没有 影响 实验 ， 虽 和 然 
Buckley 和 Voorhees (2004) 指出 ， 如 果 存 在 大 量 的 不 完整 性 会 是 一 个 问题 。Voorhees 和 
Buckley (2002) 讨论 了 使 用 不 同 数 量 的 查询 的 相关 错误 率 。Sanderson 和 Zobel (2005) 的 研 
究 展 示 了 怎样 使 用 一 个 显著 性 检验 可 以 影响 对 比 实验 的 可 靠 性 ， 同 时 还 比较 了 浅 层 和 深层 的 
相关 性 判断 。Carterette 等 人 (2006) 研究 了 一 项 技术 ， 用 来 减少 用 于 搜索 引擎 可 靠 性 对 比 所 
需要 的 相关 性 判断 的 数量 。Kelly 和 Teevan (2003) 回顾 了 一 些 获取 和 使 用 潜在 的 相关 性 信息 
的 方法 。Fox 等 人 (2005) 研究 了 在 网 页 检索 的 上 下 文中 的 一 些 渤 在 的 相关 性 判断 方法 ， 
Joachims A (2005) 介绍 了 获得 基于 点 击 数据 的 用 户 偏好 的 策略 。Agichtein,， Brill, Dumais 
和 Ragno (2006) 扩展 了 这 种 方案 ， 并 且 完 成 了 更 多 的 实验 来 介绍 点 击 数据 分 布 和 偏差 ， 同 时 
证 实 了 大 量 的 用 户 行为 相关 的 特征 有 助 于 预测 文档 相关 性 。 

F 值 的 评价 方案 由 van Rijsbergen (1979) 首次 以 E=1--E 的 形式 提出 。 就 评价 理论 而 言 ， 他 
还 为 卫 评 价 提供 了 一 种 合理 的 理由 ， 同 时 提出 了 效果 评价 方案 应 该 是 间隔 的 还 是 有 序 的 疑问 ， 
以 及 指出 符号 检验 和 威 氏 符号 秩 次 检验 是 合理 的 显著 性 检验 方法 。Cooper (1968) 早期 写 了 
一 篇 重要 的 文章 ， 介 绍 了 expected search length (ESL) 方 法 ， 其 中 ESL 指 的 是 用 户 期 望 看 到 的 
相关 文档 的 具体 数量 。 虽 然 这 种 方法 没有 被 广泛 应 用 ， 但 是 它 仍 然 是 那些 重视 排序 位 置 靠 前 
文档 的 评价 方法 如 NDCG (Jarvelin & Kekäläinen, 2002) 方法 的 鼻祖 。 这 种 类 型 的 另 一 种 方法 ， 
最 近 刚 刚 被 引入 ， 叫 做 rank-biased precision (Moffat, Webber, & Zobel, 2007). 

Yao (1995) 提供 了 用 户 偏好 的 首次 讨论 ， 并 研究 了 怎样 使 用 它们 才能 更 好 地 评价 搜索 引 
%, Joachims (2002b) 提供 的 论文 展示 了 如 何 使 用 用 户 偏好 训练 一 个 基于 特征 的 线性 检索 模 
型 ， 同 时 使 用 了 Kendall's rz 作为 效果 评价 方法 来 获取 最 佳 排序 。 由 Carterette 和 Jones (2007) 
最 近 撰 写 的 论文 ， 展 示 了 如 何 直接 使 用 来 自 点 击 数据 的 相关 性 信息 来 进行 搜索 引擎 的 评价 ， 
而 不 是 先 将 其 转换 为 用 户 偏 好 。 

与 效果 评价 方案 相关 的 一 个 很 有 趣 的 话题 是 查询 效果 的 预测 。Cronen-Townsend 等 人 
(2006) 的 文章 描述 了 清晰 度 (Clarity) 测量 方法 ， 即 预测 一 个 查询 的 返回 文档 排序 列表 是 否 
具有 较 好 的 准确 率 。 其 他 的 评测 方法 被 证 实 与 平均 准确 率 有 其 至 更 好 的 相关 性 。 

很 少 有 文章 讨论 搜索 引擎 的 效率 评价 方法 。Zobel 等 人 (1996) 是 文献 中 的 一 个 例子 。 


练习 
8.1 在 信息 检索 领域 的 文献 中 ， 找 出 其 他 3 个 测试 集 的 样 例 (TREC 除 外 )。 请 描述 它们 ， 并 用 
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表 的 形式 对 比 它们 的 统计 数据 。 

8.2 假设 你 想 了 解 博 客 搜索 引 敬 的 效果 。 请 详细 设计 这 项 应 用 实例 的 几 项 检索 步骤 ， 继 而 描 
述 你 想 要 构建 的 测试 集 ， 以 及 你 怎样 评价 排序 算法 。 

8.3 对 于 CACM 数 据 集中 的 一 个 查询 (在 本 书 网 站 上 提供 )， 使 用 Galago 生 成 一 个 排序 ， 请 手 
工 计算 平 均 谁 确 率 、NDCG@5、NDCG@10、P@10 以 及 排序 倒数 。 

8.4 对 于 CACM 数 据 集 中 的 两 个 查询 ， 请 生成 两 个 没有 进行 插值 的 召回 率 一 准确 率 折 线 图 ， 
以 及 在 标准 召回 率 等 级 上 使 用 插值 法 构建 准确 率 值 表 格 ， 以 及 平均 插值 召回 率 一 准确 率 
折线 图 。 

8.5 考察 整个 CACM 查 询 集合 ， 请 计算 平均 准确 率 、 召 回 率 -- 准 确 率 折线 图 、 平 均 NDCG@5 
以 及 NDCG@10、P@10。 

8.6 根据 图 8-3 的 实例 ， 对 比 MAP 与 GMAP 评 价 方法 。 请 指出 哪个 查询 对 GMAP 值 的 影响 较 大 。 

8.7 在 很 多 评价 体系 中 有 一 种 评价 方法 R-precision 经 常 被 使 用 。 该 方法 定义 为 R 个 文档 中 的 准 
确 率 ， 其 中 R 是 某 一 查询 相关 文档 的 数量 。 该 方法 被 用 于 不 同 的 查询 对 应 的 相关 文档 数量 
变动 非常 大 的 情况 。 请 为 CACM 查 询 集 计 算 平 均 的 R-precision， 并 与 其 他 的 评价 方法 进 
行 对 比 。 

8.8 假设 CACM 中 的 10 个 查询 为 简单 查询 ， 对 它们 手工 增加 查询 的 结构 生成 复杂 查询 。 对 比 
简单 查询 与 复杂 查询 的 效果 评价 值 MAP、NDCG 以 及 P@10 值 。 分 别 使 用 t 检 验 、 威 氏 符 
号 秩 次 检验 以 及 符号 检验 考察 它们 的 显著 性 。 

8.9 对 于 CACM 数 据 集中 的 一 个 查询 ， 手 工 构 建 一 个 排序 ， 计 算 BPREF 值 ， 并 证 明 BPREF 的 
两 个 公式 将 给 出 同样 的 值 。 

8.10 考察 一 个 测试 集 ， 该 测试 集 可 以 对 大 量 的 时 间 敏 感 查询 ， 如 “奥林匹克 ”或 是 “环球 小 
姐 ” 作 出 相关 性 判断 。 假 设 这 些 相 关 性 判断 是 在 2002 年 制定 的 。 这 会 不 会 对 搜索 引擎 构 
成 一 个 问题 ?如 何 使 用 在 线 测试 来 避免 这 个 问题 ? 


BIS 分 类 和 聚 类 


“这 是 什么 东西 呢 ? 我 需要 一 个 明确 定义 。” 
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处 。 事 实 上 ， 许 多 对 文档 相关 排序 有 用 的 技术 也 用 于 分 类 和 聚 类 ， 分 类 和 聚 类 算法 在 最 新 的 
搜索 引擎 中 也 有 重要 的 应 用 ， 因 此 ， 需 要 了 解 这 些 技术 是 如 何 工 作 的 ， 以 及 如 何 解决 真实 世 
界 的 问题 。 这 里 主要 提供 一 般 的 背景 知识 和 普遍 的 看 法 。 另 外 ， 会 给 出 这 些 方法 在 实际 中 工 
作 的 例子 。 我 们 没有 过 深 地 陷 和 人 细节 的 描述 和 理论 中 ， 因 为 有 许多 其 他 优秀 的 参考 书 已 在 这 
些 方面 做 了 描述 ， 在 本 章 最 后 的 “参考 文献 和 深入 阅读 ”中 有 所 提 及 。 在 这 一 章 结束 的 时 候 ， 
你 应 该 知道 什么 是 分 类 和 聚 类 ， 包 括 最 常用 的 算法 ， 它 们 在 实际 工作 中 的 实例 以 及 如 何 评价 
它们 。 首 先 我 们 给 出 一 个 简短 的 对 分 类 和 聚 类 的 描述 。 

分 类 (classification) 是 指 自动 对 数据 (例如 电子 邮件 、 网 页 或 者 图 像 ) 进行 标注 。 人 们 
通过 日 常生 活 经 验 划分 类 别 。 但 是 ， 要 依据 一 些 原则 手工 地 对 互联 网 上 的 每 一 篇 网 页 进行 分 
类 ， 如 “垃圾 信息 ”或 “ 非 垃 圾 信息 ”， 是 不 可 能 的 ， 因 此 迫切 需要 自动 分 类 技术 。 本 章 将 描 
述 具 有 较 广 泛 用 途 的 几 种 分 类 算法 ， 包 括 垃 圾 信息 检测 、 情 感 分 析 以 及 应 用 语义 对 互联 网 广 
告 分 类 。 

RAs (clustering) 是 本 章 讨论 的 另 一 个 话题 ， 广 义 的 定义 是 将 相关 的 项 目 襄 到 一 起 。 在 
分 业 中 ， 每 一 项 被 划分 到 一 个 类 别 ， 例 如 “垃圾 信息 ”或 “ 非 垃圾 信息 ”。 在 聚 类 中 ， 每 一 项 
被 划分 到 一 个 或 多 个 类 别 中 ， 每 个 业 别 不 一 定 对 应 一 个 有 意义 的 概念 。 在 本 章 后 面 会 看 到 ， 
项 是 根据 相似 度 聚 合 到 一 起 的 。 因 此 ， 育 类 不 是 将 项 匹配 到 预先 定义 的 标签 集合 ， 而 是 允许 
数据 通过 揭示 与 项 相关 的 隐 含 结构 “自己 说 话 ”。 

分 类 和 聚 类 是 信息 检索 研究 者 多 年 来 研究 的 课题 ， 一 方面 以 搜索 的 应 用 为 目的 来 提高 有 
效 性 或 某 些 情况 下 的 效率 。 另 一 方面 ， 这 两 个 任务 是 经 典 的 机 器 学 习 问 题 。 在 机 器 学 习 领 域 ， 
分 别称 为 有 监督 和 无 监督 的 学 习 方 法 。 有 监督 的 学 习 (supervised learning) 用 充足 的 标注 好 
的 数据 ， 通 常 称 为 训练 集 (training set) ， 对 模型 进行 学 习 。 一 旦 模型 学 习 完 成 ， 就 可 以 应 用 
于 未 标注 的 数据 。 分 类 常常 看 作 是 有 监督 的 学 习 问 题 。 例 如 ， 给 定 一 个 电子 邮件 的 集合 ， 分 
别 标注 为 “垃圾 邮件 ”和 “ 非 垃圾 邮件 ”(〈 训 练 集 )， 分 类 模型 可 以 学 习 ， 然 后 模型 可 以 应 用 
于 新 的 邮件 ， 将 其 划分 为 “垃圾 邮件 ”或 “ 非 垃圾 邮件 ”。 

无 监督 学 习 (unsupervised learning) 算法 完全 基于 无 标注 的 数据 学 习 。 由 于 输入 数据 不 
能 映射 到 一 个 预先 定义 的 类 别 集 合 ， 因 此 无 监督 学 习 和 有 监督 的 学 习 相 比 ， 会 有 一 些 不 同 。 
聚 类 是 最 常见 的 无 监督 学 习 的 一 个 例子 ， 聚 类 算法 将 无 标注 的 数据 作为 输入 ， 然 后 根据 一 些 
相似 度 的 概念 将 这 些 项 目 进行 聚合 。 还 有 许多 其 他 类 型 超越 了 有 监督 和 无 监督 学 习 的 范例 ， 例 
如 半 监 督学 习 (semi-supervised learning)， 主 动 学 习 (active learning) 以 及 在 线 学 习 (online 
learning) 。 但 是 这 些 内 容 超 出 了 本 书 的 范围 ， 本 章 主要 给 出 基本 的 分 类 和 聚 类 算法 以 及 评价 
方法 。 
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9.1 分 类 


对 我 们 所 看 到 的 事物 进行 分 类 是 一 件 很 自然 的 事情 ， 在 日 常生 活 中 ， 我 们 常常 会 无 意识 
地 这 样 做 ， 例如， 去 食品 店 ， 会 不 自觉 地 将 看 到 的 食品 分 为 “ 熟 的 ”或 “ 生 的 ”, “健康 的 ” 
或 “不 健康 的 ”",， “便宜 的 ”或 “昂贵 的 ”。 

这 些 都 是 二 元 分 类 的 例子 ， 因 为 它们 只 有 两 种 情况 。 还 可 以 对 食品 进行 多 元 分 类 ， 例 如 
可 以 划分 为 “淀粉 类 ”、“ 肉 类 ”、“ 蔬 菜 类 ”或 者 “水 果 类 ”。 另 一 种 分 类 体系 是 类 别 间 具有 屋 
次 性 ， 例 如 “蔬菜 类 ”可 以 按照 凑 色 分 为 “绿色 ” “红色” 和 “黄色 ”等 子 类 。 在 这 个 体系 
下 ， 食 品 将 被 分 到 类 别 层次 中 的 某 个 位 置 。 这 个 不 同 的 分 类 及 分 类 体系 ， 包 括 二 元 、 多 值 及 
层次 关系 ， 称 为 本 体 (ontologies) 〈 见 第 6 章 )。 

为 基础 任务 选择 合适 的 本 体 是 重要 的 ， 例 如 检测 是 否 为 垃圾 邮件 ， 最 好 选 定 包含 “垃圾 ” 
和 “ 非 垃 圾 ”的 标注 集 。 如 果 有 人 要 设计 一 个 分 类 器 以 检测 某 个 网 页 是 用 哪 一 种 语言 写 的 ， 
那么 所 有 可 能 语言 的 集合 就 是 比较 合适 的 本 体 。 一 般 情况 下 ， 本 体 的 正确 选择 是 根据 问题 而 
定 的 。 如 果 不 是 ， 则 选择 明确 有 益 于 基础 任务 标注 的 集合 。 分 类 是 一 个 有 监督 的 学 习 任 务 ， 
不 要 构造 过 于 复杂 的 本 体 ， 因 为 当 很 少 或 没有 数据 与 类 别 中 的 一 个 或 多 个 关联 时 ， 多 数 的 学 
习 算 法 会 失效 〈 即 对 未 见 到 的 数据 不 具有 很 好 的 推广 性 ) 。 以 网 页 语言 分 类 为 例 ， 如 果 每 一 个 
亚洲 语言 只 有 一 个 样 例 ， 那 么 合并 各 种 语言 为 一 个 类 别 ， 建 立 一 个 标签 “亚洲 语言 "?， 胜 过 为 
每 一 个 语言 建立 一 个 独立 的 标签 ， 例 如 “中 文 * “韩文 ”等 ， 因 为 如 果 有 更 多 的 训练 样 例 ， 
分 类 器 会 将 “亚洲 语言 ”分 得 更 正确 。 

为 了 了 解 机 器 学 习 算 法 的 工作 原理 ， 我 们 先 来 了 解 一 下 人 们 是 如 何 进行 分 类 的 。 回 顾 食 
品 店 的 例子 ， 考 虑 是 如 何 将 食品 分 为 “健康 的 ”和 “不 健康 的 ”。 为 了 进行 这 个 分 类 ， 需 要 考 
察 饱 各 脂肪、 胆固醇 、 糖 和 钠 在 食物 中 的 数量 。 如 果 这 些 值 单独 或 者 合 起 来 超出 某 些 阀 值 ， 
就 可 以 将 食物 标 为 “健康 的 ”或 者 “不 健康 的 "。 总 的 来 说 ， 人 们 在 进行 分 类 的 时 候 ， 首 先 根 
据 一 些 能 帮助 区 分 各 种 情况 的 重要 特征 对 项 目 进 行 类 别 划 分 ， 从 每 个 项 目 中 抽取 这 些 特征 ， 
然后 按照 某 种 方式 合并 证 据 (combine evidence) ， 最 后 ， 用 基于 合并 的 决策 机 制 对 项 分 类 。 

在 上 面 的 例子 中 ， 特 征 是 饱和 脂肪 和 胆固醇 的 数量 。 这 些 特 征 抽 取 可 以 通过 打印 在 食品 
包装 上 的 信息 表 或 者 是 通过 实验 室 测 试 获得 ， 通 过 各 种 方法 合并 这 些 依据 以 便 衡 量 健康 指数 
( 计 为 H)， 简 单 的 方法 是 衡量 每 一 个 特征 的 重要 性 ， 然 后 将 各 个 带 权重 的 特征 值 相 加 。 例 如 : 

H(food) = wi fat( food) + w.nchol( food) 


+ W uea SUBAT( food) + w sodium( food) 


sugar sodium 





cho. 


这 里 wx、wao 等 参数 是 与 每 个 特征 值 相关 的 权重 。 当 然 ， 这 种 情况 下 每 个 特征 值 是 负 的 。 

一 旦 对 一 个 给 定 的 食物 有 了 健康 的 得 分 及， 就 必须 应 用 决策 机 制 给 这 种 食物 标注 是 健康 的 
还 是 不 健康 的 。 有 很 多 方法 可 以 采用 ， 最 简单 的 方法 是 用 简单 的 疮 值 规则 ， 也 就 是 “如 果 
H(food) >t, RARER” 

虽然 这 是 一 个 人 们 如 何 进行 分 类 的 理想 化 模型 ， 但 它 提 供 了 一 个 洞察 计算 机 如 何 进行 分 
类 的 方法 。 实 际 上 ， 下 面 描述 的 两 种 分 类 算法 跟前 面 描 述 的 步骤 一 致 ， 两 个 算法 唯一 不 同 的 
是 每 一 步 实现 操作 的 细节 。 


D Ke KK 207 








9.1.1 朴素 贝 叶 斯 

现在 来 描述 项 目 是 如 何 被 自动 分 类 的 。 最 直接 有 效 的 分 类 技术 称 为 朴素 贝 叶 斯 (Naive 
Bayes) 。 在 第 7 章 将 贝 叶 斯 分 业 器 作为 检索 模型 的 框架 做 了 介绍 。 在 那 种 情况 下 ， 只 有 两 种 类 
别 ， 即 相关 (relevant) 和 不 相关 (non-relevant)。 一 般 来 讲 ， 分 类 任务 是 多 于 两 类 的 ， 基 于 
岁 叶 斯 分 类 器 的 贝 叶 斯 规则 (Bayes’Rule) 描述 如 下 : 
P(DIC)P(C) 

P(D) 
_ P(DIC)P(C) 

Sc P(D|\C =c)P(C =c) 


P(CI|D)= 


其 中 C 和 DD 为 随机 变量 (random variable)。 我 们 时 常用 随机 变量 模拟 不 确定 的 事件 ， 这 样 的 变 
量 没有 固定 的 (确定 的 ) 值 ， 或 者 说 ， 变 量 值 是 随机 的 。 每 一 个 随机 变量 都 有 一 个 与 它 相关 
的 可 能 结果 集 ， 也 就 是 结果 的 概率 分 布 。 例 如 ， 撕 硬币 结果 就 可 以 模拟 为 随机 变量 X， 这 个 随 
机 变量 的 结果 可 能 是 “正面 (h)” 和 “反面 (t)”。 一 个 公平 的 硬币 ， 正 面 和 反面 的 输出 概率 
£0.55, Ale, P(X=h)=P(X=)=-055, 

考虑 另 一 个 例子 ， 代 数 表达 式 7Y=10+2X， 如 果 X 是 确定 的 变量 ， 则 了 也是 确定 的 。 也 就 是 
说 ， 对 于 给 定 的 X， 了 总 是 得 到 同一 个 值 。 但 是 如 果 X 是 随机 变量 ， 则 Y 也 是 随机 变量 。 假 设 X 
可 能 输出 -1 (0.1), 0 (概率 0.25)，1 (概率 0.65)。 了 的 可 能 输出 是 83，10 和 12， 则 输出 
的 概率 为 : P(Y=8)=0.1，P(Y=10)=0.25，P(Y=12)=0.65，。 

本 章 用 大 写字 母 表示 随机 变量 (例如 C，D)， 随 机 变量 的 结果 用 小 写字 母 (例如 c，d) 
表示 ， 整 个 结果 集 用 花 体例 如 C，D) 表示 。 晤 后 ， 为 了 表达 方便 ，P(X=x) 用 P(x) 人 代替。 同 
样 对 于 条 件 概 率 ， 用 PCxly) 代 炎 P(X=xlY=y)。 

贝 叶 斯 规则 是 重要 和 的， 因为 允许 根据 “相反 ”的 条 件 (P(DIC)) 写 条 件 概率 (例如 
P(CID))。 这 是 非常 强大 的 定理 ， 因 为 非常 容易 估计 和 计算 一 个 方向 而 不 是 另 一 个 方向 的 条 件 
概率 。 例 如 ， 来 看 垃圾 邮件 的 分 类 ，D 代 表 文 档 ，C 代 表 类 别 ( 例 如 “垃圾 邮件 ”或 者 “ 非 垃 
圾 邮件 ")。 虽 然 不 能 马上 清楚 计算 机 是 如 何 写 程序 (程序 由 P(CID) 表 示 ) 计算 文档 是 否 是 垃 
圾 邮件 ， 但 是 很 容易 发 现 文档 是 否 是 垃圾 邮件 的 样 例 ， 有 可 能 得 出 在 给 定 样 例 或 训练 集 情况 
下 的 PCDIC) 的 估计 。 贝 叶 斯 规则 的 神奇 在 于 ， 它 告诉 我 们 如 何 得 到 所 要 的 P(CID)， 即 如 果 不 
能 立刻 知道 如 何 估 计 P(CID)， 则 可 以 估计 比较 容易 得 到 的 PLDIC)， 然 后 运用 贝 叶 斯 规则 得 到 
P(CID), l 

如 果 在 垃圾 邮件 的 例子 中 令 C 为 类 别 的 随机 变量 ， 刀 为 文档 的 随机 变量 ， 可 以 直接 使 用 该 
规则 分 类 。 给 定 文档 ge (随机 变量 D 的 一 个 输出 ) 以 及 类 别 集 合 C=c, …, cy (随机 变量 C 的 输 
出 )， 可 以 用 贝 叶 斯 规则 计算 文档 4 属于 每 一 个 类 别 c 的 可 能 性 P(cild),…, Pl(cvd)， 然 后 可 以 将 
文档 d 标 注 为 概率 最 大 的 那 一 类 。 对 文档 d 的 贝 叶 斯 分 类 如 下 : 

Class(d) = arg max P(c\d) 
P(d\c)P(c) 
ET Şe PIAP) 


O ”贯穿 本 章 大 部 分 ， 我 们 都 假设 分 类 的 对 象 是 文本 文档 。 但 是 ， 此 处 描述 的 方法 适用 于 更 加 普遍 的 情况 ， 可 
以 用 于 非 文本 对 象 ， 如 图 像 和 视频 。 了 解 这 一 点 很 重要 。 
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这 里 max P(c1q) 的 意思 是 :“ 返 回 类 别 集合 C 中 P(clg) 最 大 值 对 应 的 类 别 c”， 这 是 对 于 给 定 的 文 
档 4 确 定 其 所 属 类 别 的 数学 表述 式 。 

不 需 直 接 计 算 P(cld)， 通 过 计算 P(dlc) 和 P(c)， 然 后 应 用 贝 叶 斯 公式 可 以 获得 P(cld)。 正 如 
在 前 面 所 说 ， 应 用 贝 叶 斯 的 一 个 原因 是 ， 由 于 它 比 较 容 易 估计 一 个 条 件 概率 ， 而 不 是 另 一 个 。 
现在 来 解释 在 实际 中 如 何 估计 这 些 值 。 

首先 描述 如 何 估计 类 别 的 先 验 概 率 P(c)。 这 个 估计 很 简单 ， 如 下 所 示 : 


N. 
Plc) === 


这 里 N. 表 示 训 练 样 例 中 已 经 标注 为 c 的 样 例 ，wN 是 训练 样 例 总 数 。 因 此 ，P(c) 表 示 训 练 样 例 中 
类 别 c 的 比例 。 

估计 Pldlc) 有 点 复杂 ， 因 为 用 与 计算 P(c) 相 同 的 方法 是 不 可 行 的 (为什么? 见 练习 9.3)。 
为 了 使 这 个 估计 可 以 实施 ， 必 须 进 行 简化 ,假设 文 档 4 可 以 表示 为 d=wi,…,w,， 并 且 对 于 ij， 
其 中 w 和 mw 之 间 是 互相 独立 的 。 简 单 地 说 ， 文 档 4 可 以 归结 为 元 素 ( 词 项 ) 的 集合 。 而 且 假设 
元 素 ( 词 项 ) 之 间 彼 此 是 独立 的 8 。 这 个 假设 是 称 其 为 朴素 (naive) 的 原因 之 一 ， 因 为 将 文 
档 的 表示 简单 化 了 。 实 际 上 ， 词 项 之 间 并 不 是 独立 的 。 可 是 ， 像 在 第 11 章 中 描述 的 那样 ， 适 
当地 模拟 词 项 间 的 依赖 性 是 可 能 的 ， 但 是 很 复杂 。 尽 管 独 立 性 是 一 种 假设 ， 但 是 朴素 贝 叶 斯 
还 是 对 各 种 分 类 任务 显示 出 了 较 强 的 鲁 棒 性 和 高 效 性 。 

这 个 独立 性 假设 允许 将 一 个 独立 随机 变量 集合 的 联合 概率 写 为 单独 的 条 件 概率 的 乘积 ， 
即 P(dlc) 可 以 写 为 : 


P(dle)= Lr lc) 


因此 ， 需 要 估计 在 词 表 ?中 的 每 一 个 词 在 每 个 类 c 的 概率 P(wilc)。 得 到 这 个 结果 要 比 直 接 
估计 P(dlc) 容 易 得 多 ， 因 为 词 表 和 类 别 都 是 有 限 的 ， 而 文本 也 许 是 无 限 的 。 独 立 性 假设 可 以 将 
P(cld) 5H: 

P(d|c)P(c) 
Sec P(d\c)P(c) 


[li Po 1 PO) 
ST ha ?OP 


现在 剩 下 的 事情 就 是 描述 如 何 估计 P(wlc)。 在 估计 概率 之 前 ， 要 明确 概率 的 真实 意义 。 例 
如 PCwlc) 可 以 解释 为 “w 与 类 别 c 相 关 的 概率 ".“vw 与 类 别 c 无 关 的 概率 ”或 者 其 他 任意 事情 。 
为 了 使 意义 更 明确 ， 必 须 明 确 概率 定义 的 事件 空间 。 事 件 空 间 (event space) 是 指 来 自 某 个 
过 程 的 所 有 可 能 事件 (或 结果 ) 的 集合 。 事 件 空间 中 的 每 一 个 事件 被 赋予 一 定 的 概率 ， 所 有 
事件 概率 的 总 和 等 于 1。 

概率 估计 及 结果 的 分 类 非常 依赖 于 事件 空间 的 选择 ， 在 此 将 简要 描述 比较 常见 的 两 种 事 
件 空间 ， 以 及 说 明 P(wlc) 在 每 一 种 事件 空间 中 是 如 何 估计 的 。 


马 ” 这 是 和 第 7 章 描述 的 大 多 数 检索 模型 核心 一 样 的 假设 。 也 等 价 于 在 第 11 章 讨论 的 词 袋 假设 。 


P(cld)= 
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1. 多重 伯 努 利 模型 

描述 的 第 一 个 事件 空间 非常 简单 。 给 定 一 个 类 c， 为 在 词 表 中 的 每 一 个 词 项 定义 一 个 二 值 
随机 变量 w;。 二 值 事 件 的 输出 是 0 或 1。 概率 P(w=1lc) 可 以 解释 为 “类 别 c 生 成 w, 的 概率 ”。 相 反 ， 
PCw=0lc) 可 以 解释 为 “类 别 c 不 生成 w 的 概率 " 。 这 是 精确 的 采用 二 值 独立 模型 ( 见 第 7 章 ) 的 
事件 空间 ， 也 就 是 称 为 多 重 伯 努 利 (multiple-Bernoulli) 的 事件 空间 。 

在 这 个 事件 空间 下 ,在 一 些 类 别 c 中 的 每 一 个 词 ， 估计 这 个 词 在 每 一 个 类 别 中 的 生成 概率 。 
例如 ， 在 垃圾 信息 分 类 中 ，P(cheap=1lispam) 有 一 个 很 高 的 概率 ， 但 是 P(dinner=1lspam) 将 有 一 
个 非常 低 的 概率 。 

图 9-1 显 示 在 事件 空间 中 训练 文本 集合 的 表达 方式 。 在 这 个 例子 中 ， 有 10 个 文本 (每 一 个 有 
唯一 的 id) ， 两 个 业 别 (垃圾 信息 、 非 垃圾 信息 ) ， 词 表 包 括 “cheap”、 “buy”, “banking”, 
“dinner” 和 “the”。 在 这 个 例子 里 ，P(spam)=3/10，P(not spam)=7/10。 接 下 来 ， 为 每 一 对 词 
和 类 别 估计 P(wic)。 最 简单 的 方法 是 用 最 大 似 然 估计 来 估计 概率 。 即 


Powe) = ee 


e 


这 里 df 是 在 类 别 c 中 包含 w 的 文本 数量 ，N,. 是 训练 样本 中 类 别 c 的 文本 数量 。 正 如 我 们 看 到 的 ， 
最 大 似 然 估计 仅仅 是 类 别 c 中 包含 词 w 的 文本 所 占 的 比例 。 用 最 大 似 然 佑 计 ， 可 以 容易 地 计算 
P(thelspam)=1, P(theinot spam)=1, P(dinnerlspam)=0, P(dinner\not spam)=1/7， 等 等 。 


cheap buy banking dinner the 


非 垃圾 信息 
垃圾 信息 

非 垃 圾 信息 
垃圾 信息 

垃圾 信息 

非 垃圾 信息 
非 垃 级 信息 
非 垃圾 信息 
非 垃圾 信息 
非 垃圾 信息 





we Oo ceo CoO Ff KF OF OO 
re OCF Oro COC Oo 
oo ore Oromoo 
ei ODO DOOD OoOoPD 
= = e e e e e o o 
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图 9-1 多 重 伯 努 利 事 件 空间 中 文档 的 表示 说 明 。 在 这 个 例子 中 ， 有 10 个 文本 〈 每 一 个 有 唯一 
的 id) ， 两 个 类 别 (垃圾 信息 、 非 垃圾 信息 ) ， 词 表 包 括 “cheap”、“buy”. “banking”, 
“dinner” #0 “the” 

采用 多 重 伯 努 利 模型 ， 文 档 的 似 然 估 计 P(dlc) 可 以 写 为 ， 


1-6(w.d) 


P(dic)= [JP tc)?" — P(wic)) 


这 里 6(w, 站) 为 1， 当 且 仅 当 w 在 文档 4 中 。 

实际 上 ， 由 于 零 概 率 问 题 (zero probability problem) 存在 ， 应 用 最 大 似 然 估 计 是 不 可 能 
的 。 为 了 说 明 零 概率 问题 ， 回 顾 图 9-1 中 的 垃圾 信息 分 类 样 例 。 假 设 收 到 的 某 个 邮件 中 包含 
“dinner”， 不 论 邮 件 中 是 否 包含 其 他 的 词 ， 由 于 P(dinnerlspam)=0， 则 Pldic)=0， 并 且 词 在 文本 
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中 出 现 (也 就 是 说 6wwews=1)。 所 以 ,任何 包含 “dinner” 的 文本 成 为 垃圾 邮件 的 可 能 性 都 为 零 。 
这 个 问题 是 比较 普遍 的 ， 由 于 文本 中 包含 一 个 词 从 来 没有 在 一 个 或 更 多 的 类 中 出 现 ， 零 概率 
就 会 发 生 。 问 题 是 ， 最 大 似 然 估计 是 基于 训练 集中 的 计数 的 结果 (occurrence) 。 但 是 ， 训 练 
集 是 有 限 的 ， 不 是 每 一 个 可 能 结果 都 会 发 生 ， 这 就 是 数据 称 蓝 。 数 据 稀 疏 在 小 规模 的 训练 集 
中 非常 常见 。 在 相对 大 规模 的 数据 集中 也 会 出 现 。 因 此 ， 必 须 对 所 有 词 改变 这 种 估计 ， 包 括 
在 一 个 给 定 类 别 中 没有 出 现 的 词 ， 给 出 一 些 概 率 ， 来 保证 在 V 中 的 所 有 词 的 概率 P(wlc) 不 为 零 。 
这 样 ， 可 以 避免 与 零 概率 相关 的 所 有 问题 。 

如 在 第 7 章 描 述 的 那样 ， 平 滑 是 克服 零 概 率 问 题 的 有 效 方法 。 一 个 常见 的 平滑 技术 是 贝 叶 
斯 平滑 (Bayesian smoothing) ， 针 对 模型 假定 一 些 先 验 概率 ， 用 最 大 后 验 概率 (maximum a 
posteriori) 估计 。 针 对 多 重 伯 努 利 模型 ， 平 少 估 计 有 如 下 公式 ， 

Five tA, 


Powlc) = N.+a,+B8 


这 里 ow,、P, 是 依赖 于 w 的 参数 。 参 数 的 不 同 设置 将 导致 不 同 的 结果 。 一 个 常见 的 选择 是 对 所 有 
的 w 设 置 e,=1 且 PB,=0， 得 到 如 下 的 估计 
ifs +1 


di 
PWD= ET 
ct 


另 一 个 选择 是 对 所 有 的 w 设 置 cv = uae 和 By = zf 人 1- 和 从】， 这 里 W, 是 训练 文本 中 包含 w 的 所 
有 文本 数 ，j 是 可 调 参数 。 有 如 下 估计 
Nv 
pelo Nn 
N +u 
这 个 事件 空间 仅仅 考虑 是 否 有 词 出 现 ， 但 是 没有 考虑 这 个 词 出 现 多 少 次 ， 而 次 数 也 是 一 个 重 
要 信息 。 下 面 将 描述 一 个 考虑 词 频 的 事件 空间 。 

2. 多 项 式 模 型 

多 重 伯 努 利 模型 的 二 值 事件 空间 过 于 简单 ， 不 能 很 好 地 模拟 文本 中 词 出 现 的 次 数 。 实 际 
已 经 表明 ， 词 频 对 检索 和 分 类 都 是 重要 的 特征 ， 尤 其 是 用 于 长 文本 时 更 加 明显 。 针 对 比较 短 
的 文本 ， 大 多 数 词 的 出 现 不 会 超过 一 次 ， 这 时 多 重 伯 努 利 模型 是 一 个 正确 的 模型 。 但 是 实际 
的 集合 中 包含 的 文本 经 常 是 有 长 有 短 ， 因 此 考虑 词 频 及 文本 长 度 是 很 重要 的 。 

多 项 式 (multinomial) 事件 空间 与 多 重 伯 努 利 事件 空间 相似 ， 除 了 多 重 伯 努 利 模型 假定 
词 的 频率 是 二 值 的 《“ 词 出 现 ”"、“ 词 不 出 现 ") ， 多 项 式 模型 假定 词 的 出 现 是 零 或 者 多 次 (i 
出 现 0 次 "、“ 词 出 现 1 次 ”， 等 等 )。 

图 9-2 展 示 了 垃圾 信息 分 类 样 例 的 文本 在 多 项 式 事件 空间 的 表示 。 这 种 表示 和 多 重 伯 努 利 
模型 哗 一 不 同 的 是 事件 不 是 二 值 的 。 对 于 多 项 式 模型 ， 最 大 似 然 估计 与 伯 努 利 模型 相似 。 计 
| Bane: 
us 


Icl 


ix Bef, Fe WE FRB wh RRR. llRAWMAR PRAHA BR. EWR ED 


Pwle)= 
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图 9-2 在 多 项 式 事件 空间 中 文档 的 表示 说 明 。 在 这 个 例子 中 ， 有 10 个 文本 (每 一 个 有 唯一 的 id， 
PAVESI (ARRIER), WAK “cheap”, “buy”, “banking”, “dinner” Fp “the” 
由 于 词 是 根据 多 项 式 分 布 来 描述 的 ， 对 于 给 定 类 别 c， 文 本 的 最 大 似 然 估 计 计 算 如 下 : 
P(dic) = Pld Gf, 2> yaa) P(wic)*4 


x J Pwl)“ 


HY, ed Pw HARK, ldl 是 文档 d 中 的 总 词 数 ，P(ldD) 是 长 度 为 ldl 的 文本 的 生成 概率 ， 
osas Horas …， 执 ,4 是 多 项 式 系数 ” 。 注 意 到 P(ld) 及 多 项 式 系数 是 依赖 于 文档 的 ， 对 于 分 
类 ， 可 以 忽略 。 

词 似 然 的 贝 叶 斯 平滑 估计 如 下 : 


Pwle) = etA 


Iel +Ñ yv 
这 里 ow 是 依赖 于 w 的 参数 ， 对 于 多 重 伯 努 利 模 型 ， 不 同 平滑 参数 的 设 定 导致 不 同 的 估计 类 型 。 
对 所 有 的 w 设 置 cu=1， 是 其 中 一 种 选择 。 这 个 结果 导致 如 下 估计 : 


| t1 
Icl+IVI 





P(wlc)= 


oh 


男 一 种 流行 的 选择 是 设置 cv = UTCI” 这 里 cf 是 在 训练 集中 w 出 现 的 次 数 ，ICl 是 训练 集中 词 
的 总 数 ，& 像 前 面 一 样 ， 是 一 个 可 调 参数 ， 在 这 种 设置 下 ， 得 到 如 下 的 估计 ， 
if, + pe 
P(wlc) = —— Cl 
Icl+u 


日 、 多 项 式 系数 是 二 项 式 系数 的 泛 化 ， RA, HIM. Mo. Ne, 


能 被 排列 的 每 一 种 不 同形 式 的 总 数 ， 每 一 个 词 项 i 可 以 出 现 Ni 次 。 


用 来 计算 DN 项 ( 词 ) 
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这 个 估计 看 起 来 很 熟悉 ， 实 际 上 就 是 第 7 章 描述 的 Dirichlet 平 滑 语 言 模型 估计 。 

实际 中 ， 多 项 式 模 型 已 经 显示 出 一 向 优 于 多 重 伯 努 利 模型 。 基 于 这 两 种 模型 的 任意 一 种 
分 类 器 实现 都 很 简单 ， 训 练 包 括 计 算 简单 的 词 频 统计 。 在 多 数 情况 下 ， 这 些 统计 可 以 保存 在 
内 存 中 ， 可 以 提高 分 类 的 效率 。 模 型 的 简洁 性 以 及 较 好 的 准确 率 ， 使 朴素 贝 叶 斯 分 类 器 成 为 
一 般 的 分 类 算法 中 较 好 的 选择 。 
9.1.2 支持 向 量 机 


与 完全 基于 概率 论 原 理 的 朴素 贝 叶 斯 分 类 不 同 ， 下 一 个 分 类 器 基于 几何 学 原理 。 支 持 向 
量 机 (Support Vector Machine) ， 常 称 为 SVM， 将 输入 (如 文本 ) 看 作 几 何 空间 中 的 一 个 点 。 
为 简单 起 见 ， 首 先 描述 如 何 将 SVM 应 用 于 二 值 分 类 ， 就 是 常 说 的 正 例 和 反例 。 在 这 个 框架 下 ， 
SVM 的 目标 是 发 现 能 分 割 正 例 和 反例 的 超 平面 (hyperplane) ©, 

在 朴素 贝 叶 斯 模型 中 ， 文 本 在 多 重 伯 努 利 模型 中 被 看 作 二 值 向 量 ， 在 多 项 式 模型 中 被 看 
作词 频 向 量 ，SVM 根 据 文档 的 表示 提供 更 好 的 适应 性 。 对 于 SVM， 不 是 定义 基础 的 事件 空间 ， 
而 是 定义 以 文本 作为 输入 并 生成 称 为 特征 值 (feature value) 的 特征 函数 (feature function) 
EEAO, …, fiK.)。 设 给 定 文档 4d， 文 档 由 向 量 x=[fi(d),，…, f(D)] 表 示 为 N 维 空间 。 根 据 给 定 的 
训练 数据 集 ， 用 特征 函数 在 N 维 空间 中 表示 文本 。 不 同 的 特征 函数 导致 不 同 的 表示 结果 。 由 于 
SVM 根 据 类 别 发 现 分 离 数据 的 超 平面 ， 因 此 选择 有 助 于 分 离 不 同类 别 的 特征 函数 非常 重要 。 

两 个 常用 的 特征 函数 是 (qd)=60w, qd) 和 f,(d)=tf,, 4a。 如果 词 w 出 现在 文本 中 ， 则 第 一 个 特征 
函数 是 1， 可 以 类 比 于 多 重 伯 努 利 模型 。 第 二 个 特征 函数 是 计算 w 在 d 中 出 现 的 次 数 ， 可 类 比 于 
多 项 式 模 型 。 注 意 到 这 些 特征 函数 被 w 素 引 ， 这 意味 着 共有 IVI 个 这 样 的 函数 。 这 将 导致 文本 
被 映射 到 |VI 维 空间 ， 也 有 可 能 在 bigram 或 者 trigram 上 定义 相似 的 特征 函数 ， 这 将 引起 特征 维 
度 空间 爆炸 。 

进一步 地 ， 其 他 信息 可 以 被 编码 到 特征 函数 里 ， 例 如 文档 长 度 、 文 档 中 旬 子 数 、 文 档 最 
后 更 新 时 间 等 。 

既然 有 了 一 个 N 维 空间 的 表示 文本 的 机 制 ， 我 们 来 描述 SVM 如 何在 这 个 空间 中 进行 分 类 ， 
像 在 前 面 描述 中 提 到 的 ，SVM 的 目标 是 发 现 一 个 分 离 正 例 和 反例 的 超 平面 。 这 个 超 平面 从 训 
练 集中 学 习 获 得 。 根 据 测试 点 ， 藩 在 超 平面 的 哪 一 侧 确定 其 类 别 。 例 如 ， 如 果 这 个 点 落 在 反 
例 的 一 面 ， 则 将 其 判 为 反例 ， 同 样 ， 如 果 落 在 正 例 的 -一面 ， 就 将 其 判 为 正 例 。 但 是 ， 并 不 是 
总 能 找到 完全 分 离 正 例 和 反例 的 超 平 面 。 因 为 对 于 一 些 互相 候 套 的 正 例 和 反例 ， 就 不 存在 这 
样 的 超 平面 。 例 如 ， 在 图 9-3 中 ， 对 于 左边 的 平面 ， 可 以 找到 一 条 线 (平面 ) 分 离 正 例 (“+”) 
和 反例 (“一”), 但 是 在 右面 的 平面 就 不 可 能 这 样 做 。 在 左面 的 点 称 为 线性 可 分 (linearly 
separable)， 所 以 可 以 画 一 个 线性 平面 分 离 这 些 点 。 

当 数 据 是 线性 可 分 的 时 候 ， 很 容易 定义 并 找到 一 个 好 的 超 平面 。 因 此 ， 我 们 开始 讨论 在 
这 种 特殊 情况 下 SVM 是 如 何 工作 的 ， 然 后 再 扩展 到 更 一 般 的 情况 ， 讨 论 数据 点 不 是 线性 可 分 
的 情况 。 

1. 情况 1: 线性 可 分 数据 

假设 给 你 一 个 线性 可 分 的 数据 集 ， 如 图 9-3 所 示 ， 要 求 找到 分 离 这 些 数据 的 超 平面 。 该 如 
何 处 理 ? 可 能 我 们 首先 要 问 怎样 算 最 优 ? 一 个 首要 原则 是 ， 最 优 意味 着 能 够 分 离 训 练 集中 的 


日 ” 超 平面 即 为 N 维 空间 平面 。 
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正 例 和 反例 的 任意 (any) 超 平面 。 必 须 考 虑 到 任何 分 类 算 东 景 根本 的 目标 ， 就 是 对 未 见 数据 
的 推广 性 (generalize)。 如 果 一 个 分 类 器 对 训练 数据 有 很 好 的 分 离 ， 但 是 不 能 对 测试 集中 的 
数据 分 离 ， 它 的 价值 就 很 小 ， 这 种 情况 称 为 过 拟 合 (overfitting) 。 




















图 9-3 包含 两 种 类 别 的 数据 集 〈 加 号 和 减 号 ) 。 左 边 的 数据 集 是 线性 可 分 ， 右 边 的 数据 集 是 线性 不 可 分 


为 了 避免 过 拟 合 ，SVM 选 择 与 正 例 和 反例 的 数据 点 最 大 化 距离 的 超 平面 。 这 个 选择 很 直 
观 ， 也 得 到 了 理论 的 支持 。 假 设 的 超 平面 定义 为 w， 要 发 现 能 够 分 离 训练 集中 的 正 例 和 反例 并 
且 最 大 化 分 离 数 据点 的 w。 最 大 化 分 离 定义 如 下 ， 假 设 刀 是 训练 集中 与 超 平面 最 近 的 反例 ， 六 
是 训练 集中 与 超 平面 最 近 的 正 例 9S ， 定 义 边 缘 (margin) Ax 到 超 平面 加 上 x* 到 超 平面 的 距离 。 
图 9-4 给 出 了 边缘 、 超 平面 以 及 支持 向 量 的 图 形 解释 。 边 缘 可 以 计算 如 下 : 


lw:x i+w: x+) 


Iw ll 


Margin(w) = 





图 9-4 对 线性 可 分 数据 支持 向 量 机 的 图 示 说 明 。 这 里 ， 由 w 定 义 的 超 平面 以 及 边缘 、 决 策 区 
域 和 圆圈 表示 的 支持 向 量 被 表示 出 来 


这 里 ， 是 两 个 向 量 间 的 点 积 〈 内 积 ) lIwi=w * w)” 是 向 量 w 的 长 度 。SVM 算 法 中 超 平面 的 概 
念 是 分 离 数 据 最 大 边缘 化 的 超 平面 w。 为 了 简化 问题 ， 通 常 假 设 w - 和 =-1 并 且 w' xt=-1, i& 
个 假设 不 能 改变 对 问题 的 解法 ， 使 边缘 等 于 2/lwll。 另 一 个 等 价 的 公式 是 ， 发 现 解决 下 列 优化 


加 “向量 z 及 x* 称 为 支持 向 量 。 最 优 超 平面 w 是 这 些 向 量 的 特征 组 合 。 因 此 ， 它 们 为 决策 边界 提供 支持 ， 这 就 
是 支持 向 量 机 名 称 的 来 源 。 
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问题 的 超 平面 : 
min: liwi 
2 
subject to: w:x, > 1 Wi st. Class(i)= + 


wx,<-1 Vi st. Class(i)=- 


了 


这 个 公式 容易 解答 ， 因 此 常常 应 用 。 实 际 上 ， 优 化 问题 可 以 通过 动态 规划 解决 ， 这 个 问题 超 
出 了 本 书 的 范围 。 但 是 ， 有 很 多 开源 的 SVM 工具 包 ， 在 “参考 文献 和 深入 阅读 ”中 ， 会 提供 
这 样 的 软件 包 的 指示 。 

一 且 超 平面 w 被 确认 ， 未 见 的 文档 将 按 如 下 规则 分 类 : 
+ ae w-x, >0 
-其 他 


因此 ， 这 个 规则 是 基于 文档 特征 向 量 落 到 超 平面 的 哪 一 侧 进行 分 类 。 回 顾 图 9-4， 可 以 看 
到 这 个 例子 中 ， 落 在 超 平面 左边 的 点 被 划 为 正 例 ， 落 在 超 平面 右边 的 点 被 划 为 反例 。 

2. 情况 2: 非 线 性 可 分 数据 

真实 世界 的 数据 集 很 少 是 线性 可 分 的 。 因 此 ， 为 了 解决 这 个 问题 ， 需 要 修改 SVM 公式 的 
描述 。 通 过 在 不 满足 线性 可 分 约束 的 训练 实例 中 加 入 惩罚 因子 来 完成 。 

假设 在 正 例 类 别 中 的 一 些 正 例 ，w : x=-0.5， 这 不 符合 正 例 约束 w : x Sl, EXE, Bx 
在 超 平 面 错误 的 一 端 。 由 于 w: x 目标 值 至 少 要 等 于 1， 可 以 基于 目标 值 和 实际 值 的 差 值 使 用 线 
性 惩罚 因子 。 

例如 对 于 x， 惩 罚 因子 为 1-(-0.3)=1.5， 如 果 x=1.25， 符 合约 束 的 范围 ， 则 不 用 惩罚 因子 ， 
这 种 每 罚 因 子 类 型 称 为 关键 损失 函数 (hinge loss function), Ae ANP: 
max(] — wx,0) 如 果 Class(i) = + 
max(1 + wx,0) 如 果 Class(i) = 一 


Class(d) = | 


co- 


这 个 损失 负数 合并 进 SVM 最 优化 如 下 : 
. 1 
min: z" wl? 5, E, 
subject to:w'x> 1-& Wi st-Class(i)=+ 


wx, -1+& Vi s.t.Class(i) =- 
&, > 0 Vi 


这 里 5 称 为 允许 目标 值 被 违反 的 松弛 变量 (slack variable)。 这 个 松弛 变量 加 强 关 键 损失 函数 。 
注意 ， 如 果 所 有 的 约束 被 满足 ， 所 有 松弛 变量 会 等 于 0， 损 失 函 数 将 降 到 线性 可 分 的 情况 。 如 
果 违 反 约 束 ， 不 符合 约束 的 数量 加 上 目标 函数 再 乘 以 C，C 是 一 个 自由 参数 ， 控 制 对 分 错 的 样 
例 给 多 少 惩 罚 不 符合 约束 的 ， 标 准 值 设 为 1!。 这 个 优化 问题 就 是 发 现 一 个 允许 一 些 松 弛 的 最 大 
边缘 的 超 平面 。 对 于 线性 可 分 的 情况 ， 这 个 优化 问题 用 二 次 规划 和 解决。 另外， 分 类 问题 视 为 
线性 可 分 情况 执行 。 
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3. 核 技 巧 
图 9-3 说 明了 训练 数据 线性 不 可 分 的 情况 ， 将 它们 变换 (transformation) 或 映射 
(mapping) 到 高 维 空间 中 ， 得 到 线性 可 分 的 点 的 集合 ， 多 数 情况 下 可 以 提高 分 类 的 效率 。 
有 很 多 方法 可 以 映射 N 维 向 量 到 更 高 的 空间 。 例 如 ， 给 定向 量 [ 有 (4),…, f(d)]， 可 以 包括 
特征 值 的 平方 来 增 大 向 量 。 数 据 项 将 由 2N 维 向 量 表示 ; 
EAA), +, Fuld), AAY, Fuld)’ 


由 于 向 量 空间 是 高 维 的 ， 在 时 间 和 空间 的 需求 比较 大 ， 会 降低 算法 的 效率 。 

需要 注意 ， 在 训练 和 测试 SVM 时 ， 主 要 的 数学 运算 是 点 积 ， 如 果 有 高 效 的 方法 计算 高 位 
空间 的 向 量 点 积 ， 这 个 映射 就 比较 容易 实现 。 事 实 上 这 种 可 能 是 存在 的 ， 可 以 通过 核 函数 
(kernel function) 完成 ， 一 个 核 函数 取 两 个 N 维 向 量 并 计算 在 更 高 维 空间 的 点 积 。 这 个 高 维 空 
间 是 隐 含 的 〈implicit) ， 不 是 实际 构造 的 。 

我 们 来 看 一 个 例子 ， 假设 有 两 个 二 维 向 量 w=[wiw2] 和 x=[xix2]， 定义 里 () 如 下 : 

{ x )\ 
P(x) = [el 


2 
X2 


XE, OC) HE BOR A = E EAER, AREA M, aT 
将 原始 的 输入 通过 DB() 映 射 到 三 维 空间 ， 使 其 有 可 能 成 为 线性 可 分 的 点 。 还 可 以 通过 很 多 方法 
SRA E 间 。 就 像 现 在 看 到 的 一 样 ， 某 种 映射 在 高 维 空间 具有 高 效 的 点 积 运算 。 
给 定 这 个 映射 ， 计 算 P(w) . Da, HEERE), Da), REETA, HET 
点 积 。 但 是 很 意外 ， 我 们 发 现 这 是 不 必要 的 。 由 于 : 
P(w) D(x) = w x? + ZW WX X, + WiX2 


= (WwW: x) 


Bw x 的 计算 是 在 原始 的 二 维 空间 ， 因 此 ， 不 必 在 三 维 空间 ， 只 需要 在 二 维 空间 计算 
点 积 ， 然 后 计算 取 平 方 。 这 个 技巧 称 为 核 技巧 (kernel trick)， 能 高 效 地 在 一 些 更 高 维 空间 计 
算 点 积 。 

当然 ， 这 里 的 例子 是 微不足道 的 ， 核 技巧 真正 的 作用 是 在 处 理 映 射 到 非常 高 维 的 空间 时 。 
事实 上 ， 一 些 核 是 在 无 限 维 空间 上 处 理 点 积 ! 

晤 广泛 应 用 的 核 在 表 9-1 中 给 出 ,注意 到 ， 高 斯 核 也 称 为 径 向 基 函 数 (RBF) 核 。 核 的 最 住 
选择 依赖 于 数据 的 几何 形状 。 这 些 核 已 经 证 明 在 文本 特征 上 的 有 效 性 ， 只 要 是 方差 中 适当 ， 
高 斯 核 也 擅长 在 更 广 范围 的 数据 集 工 作 。 多 数 的 SVM 软件 包 已 经 建立 了 这 些 核 ， 用 它们 和 用 
指定 的 命令 行 参 数 一 样 简单 。 因 此 ， 给 出 它们 的 潜在 作用 和 易 用 性 ， 对 给 定数 据 集合 任务 确 
定 最 好 的 核 是 有 价值 的 。 

这 些 软件 包 的 可 用 性 及 表达 方式 的 灵活 性 ， 更 重要 的 是 ， 已 经 在 许多 应 用 中 被 证 明 的 有 
效 性 导致 了 SVM 在 分 类 中 有 广泛 的 应 用 。 

4. 非 二 元 分 类 

直至 目前 ， 所 有 的 讨论 还 是 集中 在 支持 向 量 机 如 何 应 用 在 一 元 分 类 任务 上 。 下 面 将 措 述 
最 流行 的 两 种 方法 ， 将 二 元 分 类 器 ， 例 如 支持 向 量 机 ， 转 换 为 多 类 分 类 器 。 这 些 方 法 实现 起 
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来 很 简单 ， 并 且 已 经 证 明 非 常 有 效 。 
表 9-1 SVM 中 典型 应 用 的 核 列表 。 对 于 每 一 个 核 ， 给 出 了 名 称 、 值 及 隐 含 维度 空间 


核 类 型 值 隐 含 维度 
线性 K(X, Xs) = XX N 

多 项 式 K(x, 2) = 01%) 人 +P o) 
高 斯 K(x xX) = exp— ll x — x, I? /20° EZ 


第 一 种 技术 称 为 一 对 多 (One Versus All, OVA) Aik, PIRAKS2EHDRAM. x 
OVA 方 法 将 训练 K 个 分 类 器 。 当 训练 到 第 x 个 分 类 器 的 时 候 ， 第 类 将 被 看 作 正 例 ， 其 他 所 有 类 
将 被 看 作 反 例 。 也 就 是 说 ， 每 个 分 类 器 将 单一 类 被 选中 的 实例 作为 正 例 ， 余 下 的 实例 作为 反 
例 。 给 定 测试 样 例 rz， 被 有 个 分 类 器 分 类 。x 被 划分 到 的 类 别 是 分 类 器 的 值 w . x 中 最 大 的 那 一 类 。 
就 是 说 ， 如 果 w. 是 “类 别 c 对 非 类 别 c 的 分 类 器 ” ， 那 么 将 根据 如 下 公式 分 类 ， 


Class(x) = arg max w, +x 


另 一 种 技术 称 为 一 对 一 (One Versus One, OVO) 方法 ， 在 一 对 多 方法 中 ， 二 值 分 类 器 被 
每 一 个 类 别 对 训练 。 例 如 ， 对 于 三 元 类 别 问题 ， 类 别 为 “优秀 ”、“ 不 错 "、“ 差 ”"， 需 要 训练 如 
下 的 分 类 器 :“ 优 秀 vs 不 错 ”、“ 优 秀 vs 差 "、“ 不 错 vs 差 ” 。 一 般 情 况 下 ， 这 个 OVO 方 法 要 求 
K(K 一 1)/2 个 分 类 器 被 训练 ， 每 一 次 x 被 划分 到 c 类 ， 对 c 的 投票 将 被 记录 下 来 ， 最 后 ，x 被 划分 
到 具有 最 多 投票 的 类 别 中 。 

OVA 和 OVO 方 法 在 实践 中 都 是 很 好 的 方法 ， 没 有 确定 的 证 据说 明 一 种 方法 优 于 另 一 种 方 
法 。 换 句 话说 ， 方 法 的 有 效 性 在 很 大 程度 上 依赖 于 数据 集 的 基础 特征 。 

9.1.3 评价 

大 多 数 分 类 任务 用 标准 的 信息 检索 度量 标准 评价 ， 例 如 准确 率 (accuracy) 2、 精确 率 
(precision)、 召 回 率 (recall) 、F 值 以 及 ROC 曲 线 分 析 。 在 第 8 章 详细 描述 了 这 些 度 量 标准 ， 
这 些 度量 标准 最 常用 的 是 准确 率 和 F 值 。 

评价 分 类 任务 和 评价 检索 任务 有 两 个 主要 的 不 同 。 第 一 个 不 同 是 “相关 ”的 概念 被 替换 
为 “被 正确 分 类 ”。 另 一 个 不 同 是 ， 微 平均 很 少 被 用 于 评价 检索 任务 ,但 是 广泛 用 于 分 类 的 评 
价 。 宏 平均 包括 计算 每 个 类 (class) 的 评价 参数 ， 然 后 将 每 个 类 的 参数 平均 。 微 平均 计算 的 
是 对 每 个 测试 实例 (样本) 的 评测 ， 然 后 在 所 有 这 些 实例 上 平均 。 分 析 宏 平均 和 微 平均 非常 
有 用 ， 尤 其 是 在 P(c) 分 布 不 平衡 的 情况 下 。 

9.1.4 分 类 器 和 特征 选择 

到 目前 为 止 ， 我 们 已 经 介绍 了 两 个 基本 的 分 类 器 的 基本 要 素 。 描 述 了 建立 在 分 类 器 之 上 
的 原理 、 基 本 假设 、 利 与 刺 ， 以 及 在 实践 中 如 何 应 用 。 由 于 分 类 是 一 个 复杂 和 丰富 的 课题 ， 
在 这 一 小 节 将 介绍 更 深入 的 话题 ， 或 许 那些 喜欢 更 深 和 更 复杂 的 分 类 话题 的 人 会 更 感 兴趣 。 

1. 生成 模型 、 判 别 模型 和 非 参 数 模型 

朴素 贝 叶 斯 分 类 器 基于 概率 模型 ， 模 型 要 求 假 设 文档 是 从 根据 对 应 一 些 基础 事件 空间 的 


O ”准确 率 是 排序 为 1 的 精确 率 的 另 一 种 定义 。 
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文档 模型 的 文档 类 别 产 生 的 ， 朴 素 贝 叶 斯 分 类 器 是 称 为 生成 模型 (generative model) 的 概率 
模型 的 众多 种 类 中 的 一 个 例子 。 这 些 模型 假设 一 些 基 础 的 概率 分 布 生成 文档 和 类 别 。 在 朴素 
贝 叶 斯 情况 下 ， 类 别 和 文档 生成 如 下 。 首 先 根据 P(c) 生 成 一 个 类 ， 然 后 根据 P(alc) 生 成 文档 ， 
这 个 过 程 在 图 9-5 中 进行 了 总 结 。 生 成 模型 模仿 人 类 实际 生成 《撰写 ) 文档 的 方式 。 





根据 P(O) 生 成 类 
类 2 
根据 Pdlo) 生 成 文档 | 
LA 


图 9-5 朴素 贝 叶 斯 所 用 的 生成 模型 。 首 先 根据 PCc) 生 成 一 个 类 ， 然 后 ， 根 据 P(da 选 择 文档 


当然 ， 生 成 模型 的 准确 率 很 大 程度 依赖 于 概率 模型 如 何 准确 地 捕捉 生成 过 程 。 如 果 模 型 
合理 地 反映 了 生成 过 程 ， 生 成 模型 则 是 非常 有 效 的 ， 特 别 是 训练 样 例 非 常 少 的 时 候 。 随 着 训 
练 样 例 的 增多 ， 生 成 模型 的 能 力 可 以 被 简化 的 分 布 假设 约束 ， 例 如 朴素 贝 叶 斯 分 类 器 的 独立 
性 假设 。 这 种 情况 下 ， 判 别 模 型 (discriminative model) 常常 优 于 生成 模型 。 判 别 模型 不 会 去 
模拟 文本 和 类 别 的 生成 过 程 ， 而 是 直接 模拟 对 给 定 的 输入 文本 赋予 类 别 。 这 种 方式 下 ， 它 们 是 
在 类 别 间 判别 。 由 于 这 种 模型 不 需要 模拟 文档 生成 ， 所 以 很 少 有 分 布 假 设 。 这 也 是 在 训练 样 例 
比较 多 的 情况 下 ， 倾 向 于 生成 模型 的 一 个 原因 。 支 持 向 量 机 是 判别 模型 的 一 个 例子 。 注 意 ， 在 
SVM 公式 中 ， 没 有 文本 生成 过 程 的 假设 ， 而 是 由 SVM 直接 学 习 到 有 效 划 分 类 别 的 超 平面 。 

针对 大 规模 的 训练 样 例 ， 非 参数 分 类 器 (Non-parametric classifier) 是 另 一 个 选择 。 非 参 
数 分 类 器 通过 去 除 所 有 分 布 假设 让 数据 “自己 说 话 ”。 一 个 简单 的 非 参 数 分 类 器 就 是 最 近邻 分 
类 器 (nearest neighbor classifier)， 给 定 一 个 未 见 样 例 ， 在 训练 样 例 中 找到 离 它 最 近 的 邻居 ， 
该 未 见 样 例 就 被 赋予 离 它 最 近 的 样 例 所 属 的 类 别 。 图 9-6 表 示 了 最 近邻 分 类 器 的 输出 。 注 意 到 
分 类 器 导致 的 不 规则 、 非 线性 的 决策 边界 。 生 成 和 判别 模型 ， 甚 至 具有 非 线性 核 的 SVM 将 花 
费 很 多 的 时 间 来 使 模型 适应 数据 。 由 于 这 个 原因 ， 当 数据 量 接近 无 穷 大 时 ， 最 近邻 分 类 器 是 
最 佳 的 。 但 是 ， 这 个 分 类 器 对 小 规模 数据 集合 有 很 大 的 不 一 致 ， 所 以 也 限制 了 它 的 应 用 。 

2. 特征 选择 

SVM 分 类 器 将 输入 例如 文本 ) 嵌入 到 特征 函数 集 定义 的 一 些 特征 空间 。 就 像 曾 经 描述 
过 的 ， 通 常 对 词 表 中 的 词 定义 一 个 (或 多 个 ) 特 征 函 数 。 这 个 IVI- 维 特征 空间 可 以 很 大 ， 尤 其 是 
对 很 大 的 词 表 。 由 于 特征 集 的 规模 对 分 类 器 的 效率 和 效果 都 会 带 来 影响 ， 研 究 者 发 明了 特征 
空间 剪 枝 技术 ， 这 就 是 特征 选择 (feature selection) 技术 。 

特征 选择 的 目的 是 在 最 初 的 特征 空间 中 ， 找 到 能 够 代表 原 特 征 空间 的 主要 特征 的 特征 子 
集 ， 这 既 能 提高 效率 同时 又 不 会 过 多 地 影响 其 有 效 性 。 事 实证 明 ， 特 征 选 择 常 常 是 提高 了 有 
效 性 而 不 是 降低 有 效 性 。 原 因 是 一 些 去 除 的 特征 可 能 是 噪声 或 不 准确 的 因素 ， 这 会 妨碍 分 类 


218 


+ 
© 
te 





模型 更 好 的 学 习 。 





图 9-6 非 参数 学 习 算 法 数据 集合 的 例子 ， 非 参数 学 习 算 法 ， 例 如 最 近邻 分 类 器 ， 也 许 会 优 于 
参数 算法 。 加 号 和 减 号 分 别 代表 正 例 和 反例 。 灰 实 线 表示 了 实际 非 线性 决策 边界 


信息 增益 (information gain) 是 文本 分 类 中 应 用 最 广泛 的 特征 选择 方法 。 信 息 增益 基于 
信息 论 原理 。 就 像 其 名 字 中 包含 的 信息 一 样 ， 该 特征 度量 的 是 对 类 别 标签 增加 了 多 少 信息 。 
我 们 回顾 图 9-1 垃 圾 信息 分 类 的 例子 ， 会 发 现 特征 “cheap” 提 供 大 量 的 信息 ， 如 果 “cheap” 
出 现 , 很 有 可 能 是 垃圾 类 ， 如 果 不 出 现 , RATHEE GERRA”. EBH, i (entropy) 
是 包含 某 些 分 布 的 期 望 信息 。 例 如 类 的 分 布 P(C)。 因 此 ， 特 征 j 的 信息 增益 度量 的 是 发 现 f 之 
后 P(C) 的 粹 的 变化 。 假 设 一 个 多 重 伯 努 利 事件 空间 ， 计 算 如 下 : 


IG(w) = H(C)- H(C\w) 
= -5 P(c)log P(c) + D> P(w) 》 Plclw)log P(clw) 
1} 
BA C)RPCOC) H, HwlQ)RRARE (conditional entropy) 。 下 面 以 例子 说 明 ， 从 垃圾 信 
息 的 例子 中 计算 “cheap” 信 息 增 益 : 
IG(cheap) = - P(spam) log P(spam) - P(spam) log P(spam) 
+ P(cheap)P(spam | cheap) log P(spam | cheap) 
+ P(cheap) P(spam | cheap) log P(spam | cheap) 
+ P(cheap)P(spam | cheap) log P(spam | cheap) 





+ spam | cheap) og P(spam | cheap) 


340 3 Tio 310 3 
10 "10 10 0875 + 4°84 
4 1 1 6 o. 0 6 6. 6 
+ 一 ' 一 log 一 + 一 :一 log 一 + 一 一 IJog 一 
10 4 4 10 6 6 10 6 6 
= 0.2749“ 


这 里 Pl(cheap) 是 Plcheap=0) 的 简写 形式 。 PCspam) 就 是 P(C=not spam), {Ri0log0=0, “buy”, 
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“banking”, “dinner” #0 “the” AY {3.342345 BIZE0.0008, 0.0434, 0.3612%00.0, Ak, 4E 
信息 增益 , “dinner” 是 最 有 信息 量 的 词 ， 因 为 根据 训练 集 ， 它 是 一 个 非常 好 的 “ 非 垃圾 ”的 
预测 器 。 相 反 ，“the” 是 最 不 好 的 预测 器 ， 因 为 该 词 会 出 现在 每 一 篇 文档 中 ， 所 以 没有 判别 
功能 。 
相似 的 信息 增益 度量 可 以 从 其 他 的 事件 空间 中 导出 ， 例 如 多 项 式 事 件 空 间 。 有 许多 不 同 
的 采用 信息 增益 的 方法 来 选择 特征 。 但 是 ， 最 常用 的 方法 还 是 选择 具有 最 大 信息 增益 的 K 个 特 
征 ， 并 用 这 些 特 征 训练 模型 。 也 有 可 能 按照 所 有 特征 的 百分比 或 者 采用 阅 值 的 方法 选择 特征 。 
尽管 有 许多 其 他 的 特征 选择 策略 ， 但 信息 增益 是 一 个 万 能 的 特征 选择 标准 ， 尤 其 是 基于 
文本 的 分 类 问题 。 在 本 章 末 尾 的 “参考 文献 和 深入 阅读 ”部 分 ， 提 供 了 其 他 特征 选择 技术 的 
导读 。 
9.1.5 垃圾 、 情 感 及 在 线 广告 


尽管 相关 排序 函数 是 搜索 引擎 非常 关键 的 部 分 ， 但 分 类 技术 在 各 种 搜索 任务 中 也 充当 着 
重要 的 角色 。 在 这 一 小 节 ， 将 描述 几 个 真实 世界 的 文本 分 类 的 应 用 。 这 些 应 用 包括 : 垃圾 信 
AM (spam detection) 、 情 感 分 类 (sentiment classification) 及 在 线 广告 分 类 (online 
advertisement classification) 。 

1. 垃圾 信息 

分 类 技术 有 助 于 检测 和 去 除 各 种 垃圾 信息 。 垃 圾 信息 一 般 定义 为 一 些 恶 意 内 容 9S ， 例 如 
一 些 未 经 同意 的 广告 ， 网 页 的 欺诈 排序 或 者 病毒 传播 。 垃圾 信息 一 个 重要 的 特征 是 ， 常 常 不 
包含 有 用 的 内 容 。 垃 圾 信息 的 定义 是 主观 的 ， 因 为 有 的 信息 对 某 些 人 无 用 ， 但 是 对 其 他 人 会 
有 用 ， 所 以 很 难 提 出 一 个 客观 的 定义 。 

垃圾 信息 有 很 多 类 型 ， 包 括 垃 圾 邮件 、 垃 圾 广告 、 垃 圾 博客 和 垃圾 网 页 。 垃圾 邮件 的 制 
作者 对 不 同 的 垃圾 信息 采用 不 同 的 技术 。 因 此 没有 一 个 单一 的 垃圾 信息 分 类 方法 来 解决 所 有 
的 垃圾 信息 间 题 。 特 定 的 垃圾 信息 分 类 器 是 根据 不 同 的 垃圾 信息 类 型 建立 的 ， 每 一 个 都 考虑 
到 了 特定 域 的 信息 。 大 量 都 是 关于 垃圾 邮件 的 ， 例 如 SpamAssassin® 这 样 的 过 滤 程 序 很 通用 。 
图 9-7 显 示 了 SpamAssassin 对 邮件 处 理 的 输出 样 例 。SpamAssassin 计 算 邮 件 的 分 值 并 与 阅 值 
(一 般 为 5.0) 比较 ， 确 定 是 否 为 垃圾 邮件 。 这 个 分 值 基于 多 个 特征 的 合并 ， 贝 叶 斯 分 类 器 的 
输出 是 最 重要 的 特征 之 一 。 假 如 这 样 ， 邮 件 中 包含 的 URL 在 黑 名 单 上 ， 时 间 蕉 比 收 到 的 时 间 
晚 ， 贝 叶 斯 分 类 器 根据 词 的 信息 判定 这 个 邮件 40 多 一 60 多 可 能 是 垃圾 信息 。 由 于 上 述 这 三 项 对 
这 个 邮件 的 打分 没有 超过 5， 所 以 不 是 垃圾 信息 (属于 误 判 ) 。 

由 于 本 书 集中 于 搜索 引擎 ， 因 此 将 关注 垃圾 网 页 的 处 理 ， 这 也 是 分 布 最 广 而 且 最 难处 理 
的 垃圾 信息 类 型 之 一 。 检 测 网 页 垃圾 是 很 困难 的 ， 因 为 垃圾 信息 制造 者 变 得 日 益 诡异 ， 似 乎 
垃圾 邮件 制造 者 在 信息 检索 领域 有 很 高 的 水 平 ， 有 很 多 方法 针对 网 页 。Gy6ngyi 和 Garcia- 
Molina (2005) 提 出 了 网 页 垃圾 分 类 体系 ， 尝 试 将 常常 用 于 人 为 提高 网 页 排序 的 不 同 网 页 垃圾 
技术 进行 分 类 ， 两 个 最 常用 的 技术 是 链接 垃圾 (link spam) 和 词 垃圾 (term spam), 


O “垃圾 ”一 词 的 词 源 ， 相 对 于 计算 机 侵权 是 非常 有 趣 的， 这 个 含义 出 自 于 1970Monty Python 的 滑稽 短 剧 集 ， 
餐馆 中 ， 在 菜单 上 的 每 一 种 都 是 垃圾 食品 ( 肉 类 产品 )。 海 盗 合 唱 团 唱 着 歌 “ 垃 圾 、 垃 圾 、 垃 圾 …”， 不断 
地 重复 恼人 的 行为 。 


© _http://spamassassin.apache.org/, 
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To: .… 
From: ... 
Subject: non profit debt 
X-Spam-Checked: This message probably not SPAM 
X-Spam-Score: 3.853, Required: 5 
X-Spam-Level: *** (3.853) 
X-Spam-Tests: BAYES_50,DATE_IN_ FUTURE_06_12,URIBL_BLACK 
X-Spam-Report-rig: ---- Start SpamAssassin (v2.6xx-cscf) results 
2.0 URIBL_BLACK Contains an URL listed in the URIBL blacklist 
(URIs: bad-debtyh. net.cn] 
1.9 DATE_IN_FUTURE_06_12 Date: is 6 to 12 hours after Received: date 
0.0 BAYES_50 BODY: Bayesian spam probability is 40 to 60% 
[score: 0.4857] 








Say good bye to debt 
Acceptable Unsecured Debt includes All Major Credit Cards, No-collateral 
Bank Loans, Personal Loans, 


Medical Bills etc. 
http://www.bad-debtyh.net.cn 
图 9-7 Spam Assassin 垃 圾 邮件 过 滤 输 出 样 例 


对 于 链接 垃圾 ,垃圾 信息 制造 者 用 各 种 办 法 人 为 地 提高 他 们 网 页 的 链接 分 值 。 特 别 是 ， 
互联 网 常常 根据 链接 的 入 度 和 PageRank 度 量 ， 完 全 基于 链接 结构 度量 网 页 的 重要 性 。 但 是 这 
些 技术 对 垃圾 信息 是 敏感 的 。 一 个 常用 的 简单 的 链接 垃圾 信息 的 方法 是 ， 在 博客 或 论坛 中 张 
贴 目标 网 页 的 链接 ， 另 一 种 人 为 增加 基于 链接 的 分 值 方法 是 ， 加 入 一 个 链接 交换 网 络 。 链 接 
交换 网 络 是 彼此 相互 连接 的 大 规模 站 点 网 络 ， 用 来 增加 进入 这 个 站 点 的 链接 数 。 另 一 个 链接 
垃圾 信息 的 技术 是 链接 耕作 ， 与 交换 网 络 类 似 ， 不 同 之 处 在 于 ， 垃 圾 制造 者 自己 买 下 大 量 的 
域名 ， 建 立 大 量 的 站 点 ， 然 后 将 它们 链接 在 一 起 。 还 有 各 种 其 他 的 方法 ， 但 是 大 多 是 链接 垃 
圾 。 最 近 提 出 许多 替换 PageRank 的 方法 ， 包 括 HostTrust (2004) 和 SpamRank (2005) ， 都 在 
试图 减弱 链接 垃圾 的 潜在 作用 。 

另 一 个 常用 的 产生 垃圾 信息 的 方法 是 词 垃圾 信息 。 词 垃圾 信息 试图 改变 文本 的 表示 ， 以 
便 能 被 某 些 查询 或 者 关键 词 检索 。 与 基于 链接 的 打分 的 原理 一 样 ， 基 于 词 的 打分 也 是 对 垃圾 
信息 敏感 的 。 多 数 广 泛 用 于 检索 的 模型 ， 包 括 BM25 和 语言 模型 ， 主 要 是 利用 一 些 包 含 词 频 或 
文档 频率 的 公式 。 因 此 ， 通 过 增加 目标 词 ， 这 些 模 型 会 很 容易 地 被 检索 到 的 非 相 关 文 档 欺 骗 。 
进一步 地 ， 许 多 网 页 相关 排序 函数 匹配 进入 的 销 文 本 和 URL， 修 改 URL 以 匹配 给 定 的 词 或 词 
组 是 很 容易 的 。 但 是 修改 进入 的 销 文 本 还 是 需要 很 多 努力 ， 利 用 链接 交换 和 链接 耕作 会 更 容 
易 一 些 。 另 一 个 技术 称 为 倾销 (dumping)， 就 是 用 许多 不 相关 的 词 (常常 是 整个 词典 ) 填 充 文 
本 ， 导 致 文本 被 任何 查询 检索 ， 因 为 几乎 包含 了 查询 词 的 每 一 种 组 合 。 因 此 ， 这 起 到 了 加 强 
召回 率 的 作用 。 也 可 以 和 其 他 的 垃圾 技术 合并 ， 例如 重复 文本 ， 都 是 为 了 有 更 高 准确 率 和 高 
召回 率 。 短 语 拼接 (Phrase stitching) (从 多 种 来 源 合 并 词 和 句子 ) 和 编织 (weaving) 〈 将 垃 
圾 词 加 入 到 有 效 的 文本 中 ， 例 如 新 闻 故 事 ) 是 其 他 一 些 人 为 生成 垃圾 内 容 的 技术 。 当 开发 相 
关 排 序 函 数 防 止 垃圾 信息 时 ， 所 有 这 些 词 垃圾 的 类 型 都 将 应 该 被 考虑 。 

图 9-8 给 出 了 网 页 包含 垃圾 信息 的 例子 ， 这 个 网 页 包含 重复 重要 的 词 的 垃圾 和 提 到 的 有 关 
垃圾 网 站 的 链接 垃圾 信息 

至 此 ， 可 以 看 到 ， 垃 圾 信息 有 规模 庞大 的 类 型 。 这 里 简单 地 关注 网 页 垃圾 ， 不 考虑 其 他 
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类 型 的 垃圾 。 的 确 ， 很 容易 以 垃圾 信息 为 主题 写 一 整 本 书 ， 但 是 ， 在 结束 垃圾 信息 讨论 之 前 ， 
我 们 还 将 描述 众多 用 来 处 理 网 页 垃圾 的 不 同方 法 之 一 。 


WWW 站 点 : 


BETTING NFL FOOTBALL PRO FOOTBALL 
SPORTSBOOKS NFL FOOTBALL LINE 
ONLINE NFL SPORTSBOOKS NFL 
Players Super Book 


When Tt Comes To Secure NFL Betting And Finding 


The Best Football Lines Players Super Book Is The 
Best Option! Sign Up And Ask For 30 % In Bonuses. 


MVP Sportsbook 
Football Betting Has Never been so easy and secure! 
MVP Sportsbook has all the NFL odds you are looking for. 
Sign Up Now and ask for up to 


30 % in Cash bonuses. 





词 垃圾 ; 
pro football sportsbooks nfl football line online nfl sportsbooks nfl football 
gambling odds online pro nfl betting pro nfl gambling online nfl football 
spreads offshore football gambling online nfl gamblibg spreads online 
football gambling line online nfl betting nfl sportsbook online online nfl 
betting spreads betting nfl football online online football wagering online 
gambling online gambling football online nfl football betting odds offshore 
football sportsbook online nfi football gambling ... 


BERA: 
. ll Gambling Beverly Hills Football Sportsbook 
oe SB po Wagering Popular Poker Footbal! Odds 
Virtual Bookmaker Football Lines V Wager F: 
Bogarts Casino Football Point Spreads. Gecko casa Online Feotball Betting 
Jackpot Hour Online Football Gambling, MVP line F all ri 


Toucan Casing NFL Betting Popular Poker NFL Gambling 
All fl Bet Jockey NFL Odds 


All Tracks NEL Wagering B 
Live Horse Betting NEL Lines) MVP Racebook NFL Point Spreads 
Popular Poker NFL Spreads Bogarts Poker NFL Sportsbook ... 


图 9-8 网 页 垃圾 示例 ， 显 示 主 网 页 、 相 关 的 一 些 词 垃圾 和 链接 垃圾 


Ntoulas 等 人 (2006) 提出 了 用 文本 分 析 检 测 网 页 垃圾 的 方法 。 这 个 方法 从 每 个 网 页 中 抽 
取 大 量 特 征 并 用 于 分 类 器 。 有 一 些 特征 包括 网 页 中 词 数 、 标 题 中 的 词 数 、 词 的 平均 长 度 、 进 
入 锁 文 本 的 数量 及 可 视 化 文本 部 分 。 这 些 特征 尝试 抓 住 网 页 文本 最 基本 的 特征 。 另 一 个 使 用 
的 特征 是 网 页 压缩 率 ， 可 以 度量 网 页 用 压缩 算法 减少 的 数量 。 已 经 证 实 压 缩 的 越 多 ， 越 有 可 
能 是 垃圾 信息 ， 因 为 包含 许多 重复 词 或 短语 的 内 容 是 容易 被 压缩 的 ， 同 时 也 显示 了 该 方法 对 
垃圾 邮件 检测 的 有 效 性 。 也 有 人 用 从 流行 词 S 中 提取 的 部 分 词 或 者 出 现在 网 页 中 的 部 分 流行 
词 作为 特征 。 这 些 特征 尝试 捕 提 网 页 是 否 用 很 多 可 能 与 查询 词 匹配 的 流行 词 填 充 。 最 后 两 种 
方法 基于 n-gram 可 能 性 。 实 验证 明 ， 包 含 过 少 或 者 过 多 的 n-grams 比 包含 n-grams 平 均 可 能 性 的 
网 页 更 有 可 能 成 为 垃圾 信息 。 所 有 这 些 特 征 采 用 另 一 种 有 监督 分 类 器 、 决 策 树 (decision tree) 

学 习 算法 ， 分 类 准确 率 达 到 90 色 ， 同 样 的 特征 可 以 很 容易 地 应 用 到 朴素 贝 叶 斯 和 支持 向 量 


© ”这 里 “全 球 流 行 ” 词 列表 简单 的 指 测试 语 料 中 前 N 个 频率 最 高 的 词 。 
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机 分 类 器 。 

2. 情感 

正如 在 第 6 章 所 描述 的 那样 ， 网 页 查询 主要 有 三 种 类 型 。 在 第 7 章 描述 的 模型 主要 关注 检 
索 及 导航 查询 。 而 第 三 种 类 型 ， 即 交易 查询 ， 则 面临 更 多 不 同 的 挑战 。 如 果 一 个 用 户 查 询 商 
品名 ， 搜 索引 擎 会 陈列 出 超出 用 户 要 求 的 相关 列表 的 各 种 信息 。 例 如 ， 如 果 用 户 感 兴趣 购买 
产品 ， 则 链接 及 在 线 购物 网 站 会 帮助 用 户 完 成 购物 。 也 有 可 能 用 户 已 经 拥有 这 个 产品 ， 为 了 
搜索 附件 或 者 增强 功能 ， 搜 索引 擎 可 以 通过 显示 相关 附件 或 服务 来 赚钱 。 

这 里 要 详细 关注 的 另 一 种 情况 是 ， 用 户 研 究 某 一 商品 的 目的 是 需要 确定 是 否 购买 。 这 种 
情况 下 ， 检 索 的 信息 例如 产品 说 明 书 、 产 品评 论 、 关 于 该 产品 的 博客 记录 都 是 有 价值 的 。 为 
了 减少 用 户 通 篇 阅读 这 些 信息 的 数量 ， 需 要 有 一 个 自动 汇集 所 有 评论 和 博客 的 记录 ， 以 呈现 
给 用 户 一 个 浓缩 的 文摘 。 . 

构建 这 样 一 个 系统 涉及 许多 步骤 。 每 个 步骤 都 涉及 分 类 的 某 些 形式 。 首 先 ， 当 抓 取 或 索 
引 站 点 时 ， 系 统 需要 自动 分 类 ， 以 判别 网 页 是 否 包含 评论 或 者 在 博客 记录 中 是 否 表 达 对 一 个 
产品 的 意见 。 判 别 以 意见 为 依据 的 文本 ， 与 事实 性 文本 形成 对 比 ， 称 为 意见 检测 (opinion 
detection) 。 在 评论 和 博客 记录 完成 之 后 ， 一 个 分 类 任务 是 要 抽取 产品 名 称 和 与 名 称 对 应 的 评 
论 ， 这 称 为 信息 抽取 (information extraction) 任务 。 对 于 每 一 个 给 定 产品 的 评论 ， 分 类 任务 
是 判定 网 页 的 情感 。 一 般 地 ， 网 页 情感 不 是 正面 的 就 是 反面 的 ， 虽 然 分 类 器 会 给 出 具体 的 分 
值 ,例如 “两 颗 星 ”、“ 四 颗 星 ”"。 最 后 ， 包 括 情 感 在 内 的 所 有 数据 必须 集成 ， 以 某 种 有 意义 的 
方式 呈现 给 用 户 。 图 9-9 表 示 从 网 络 业 务 自 动 生成 产品 评论 的 一 部 分 ， 这 些 基于 产品 各 方面 的 
摘要 的 情感 ， 例 如 “ 易 用 性 ”、“ 大 小 ”、 “软件 ”， 是 从 独立 的 用 户 评论 中 产生 的 。 

所 有 用 户 评论 
综合 评论 (148) 


ees e CE) 


易 用 性 (108) 

aes 78% ( 正 向 ) 
屏幕 (92) 

SR ea) 
软件 (78) 

| 35% ( 正 向 ) 
声音 质量 (59) 

mr。 sov (下 向 ) 
大 小 (59) 


E s (EM) 
图 9-9 合并 情感 产品 评论 样 例 


我 们 不 是 进入 这 些 不 同 的 分 类 器 的 细节 ， 而 是 关注 这 些 情感 分 类 器 是 如 何 工作 的 。 同 前 
面 的 例子 一 样 ， 我 们 考虑 人 是 如 何 判定 文本 片断 的 情感 的 。 对 于 大 部 分 情况 ， 用 词汇 线索 确 
定 情感 。 例 如 ， 正 面 的 数码 相机 的 评论 包括 内 容 词 类 似 “great”"、“nice”、“amazing”， 而 反 
面 评论 包含 内 容 词 “awful”、“terrible”、“bad”， 这 似乎 提出 了 一 种 利用 建立 两 个 词 表 解 决 问 
题 的 可 能 。 第 一 个 词 表 包 含 正面 情感 的 指示 词 ， 另 一 个 词 表 包含 负面 情感 的 指示 词 。 对 于 给 
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定 的 文本 片断 ， 简 单 地 计算 出 包含 的 正面 词 和 负面 词 的 个 数 。 如 果 正 面 词 较 多 ， 该 文本 就 为 
正面 的 ， 反 之 ， 为 负面 的 。 尽 管 这 个 方法 看 起 来 非常 合理 ， 但 是 人 们 不 是 很 善于 建立 正面 词 
和 负面 词 的 列表 。 因 为 人 类 语言 有 很 大 的 歧义 性 和 上 下 文 相关 性 。 例 如 “The digital camera 
lacks the amazing picture quality promised”， 由 于 该 句 包含 两 个 正面 词 (amazing, quality), R 
有 一 个 负面 词 〈lacks) ， 所 以 倾向 于 划分 为 正面 评论 。 

Pang A (2002) 提出 用 机 器 学 习 的 方法 进行 情感 分 类 ， 包 括 朴素 贝 叶 斯 、 支 持 向 量 机 、 
最 大 (maximum entropy) 等 。 用 于 这 些 分 类 器 的 特征 是 unigram、bigrams、 词 性 标注 、 形 
容 词 以 及 词 在 文本 中 的 位 置 。 作 者 报告 SVM 分 类 器 只 用 unigram 特 征 会 呈现 最 好 的 性 能 ， 比 用 
所 有 特征 的 分 类 器 更 准确 。 另 外 ， 也 发 现在 这 个 任务 上 ， 多 重 伯 努 利 事 件 空间 优 于 多 项 式 事 
件 空间 。 这 是 因为 最 相关 的 情感 词 在 一 些 文本 片段 中 仅仅 出 现 一 次 ， 因 此 词 频 对 这 个 模型 起 
的 作用 很 小 。 有 趣 的 是 ， 机 器 学 习 方 法 比 人 工 构建 词 表 的 方法 要 更 准确 。 采 用 unigram 的 SVM 
准确 率 达到 80% ， 而 人 工 构建 词 表 方 法 只 有 60%。 

3. 分 类 广告 

正如 在 第 6 章 中 所 描述 的 ， 搜 索 竟 价 和 内 容 匹配 是 广泛 用 于 商务 搜索 引擎 的 两 种 不 同 的 模 
型 。 前 者 是 广告 匹配 查询 ， 后 者 是 广告 匹配 网 页 。 搜 索 竞 价 和 内 容 匹 配 都 是 点 击 付费 。 也 就 
是 说 ， 只 有 用 户 点 击 广 告 ， 广 告 商 才 给 搜索 引擎 付费 。 用 户 点 击 广告 会 有 多 种 原因 。 显 然 ， 
如 果 广 告 是 “话题 相关 ”， 这 是 在 本 书 剩余 部 分 讨论 的 标准 概念 ， 用 户 则 会 点 击 它 。 但 是 ， 这 
不 是 用 户 点 击 的 唯一 原因 ， 如 果 用 户 搜 索 “ 热 带鱼 ”， 她 将 点 击 宠物 商店 、 当 地 水 族 馆 甚至 法 
水 课程 ， 但 是 很 少 点 击 钓 鱼 、 鱼 餐馆 或 汞 中 毒 ， 原 因 是 “热带 鱼 ” 这 个 概念 具有 某 种 限制 用 
户 发 现 有 趣 广告 类 型 的 语义 范围 。 

尽管 可 以 用 标准 的 信息 检索 技术 〈 例 如 查询 扩展 和 查询 重 构 ) 发 现 这 些 语 义 来 匹配 广告 ， 
但 也 可 以 利用 将 查询 划分 语义 类 的 分 类 器 。Broder 等 (2007) 提出 了 简单 有 效 的 方法 ， 将 如 
查询 或 网 页 正文 的 文本 项 划分 为 语义 层次 ， 这 个 层次 由 手工 构建 ， 包 括 6 000 多 个 节点 ， 每 一 
个 节点 代表 一 个 独立 的 语义 类 ， 层 次 越 深 ， 类 别 越 明确 。 人 们 根据 其 语义 含义 手工 地 将 数 以 
千 计 的 具有 商业 意向 的 查询 放 入 层次 中 。 

给 定 这 样 的 层次 和 数 以 千 计 标注 好 的 实例 ， 有 许多 方式 可 以 对 未 见 查 询 或 网 页 进行 分 类 。 
例如 ， 可 以 用 朴素 贝 叶 斯 或 者 SVM。 由 于 有 6 000 多 种 类 别 ， 也 许 某 些 类 会 有 很 少 的 实例 ， 也 
.就 是 数据 稀疏 问题 。 一 个 较 大 的 问题 是 效率 问题 ， 朴 素 贝 叶 斯 和 SVM 方法 将 一 个 文本 分 到 
6 000 多 个 可 能 的 类 别 中 是 很 慢 的 。 毫 无 疑问 ， 查 询 必 须 实时 分 类 。Broder 等 人 提出 术 : idf 用 
权重 计算 相似 度 ， 将 查询 (或 网 页 ) 划分 到 语义 类 ， 他 们 涉及 的 分 类 问题 像 检 索 (retrieval) 
问题 一 样 。 查 询 就 是 要 被 分 类 的 查询 (或 网 页 )， 文 档 集 包含 6 000 多 “文档 ”"， 每 一 个 对 应 一 
个 语义 类 ， 例 如 对 于 语义 类 “Sports”,“ 文 档 ” 将 包含 所 有 都 标 为 “Sports” 的 查询 。 这 些 
“文档 ”存储 在 倒 排 索引 表 中 ， 进 入 的 查询 和 网 页 可 以 高 效 地 检索 ， 这 可 以 视 为 最 近邻 分 类 器 
的 一 个 例子 。 

实际 应 用 这 个 分 类 器 时 ， 需 要 对 广告 清单 中 的 每 一 个 广告 进行 预 分 类 ， 然 后 ， 当 一 个 新 
的 查询 (或 网 页 ) 到 来 时 ， 即 进行 分 类 。 用 语义 类 提高 分 类 有 许多 方法 。 显 然 ， 如 果 查 询 语 
义 类 精确 匹配 广告 语义 类 ， 分 类 器 将 会 给 一 个 高 分 。 但 是 也 有 其 他 情况 ， 两 个 事物 非常 相关 ， 
但 是 没有 精确 匹配 到 同一 个 语义 类 。 因 此 ，Broder 等 人 提出 了 采用 在 层次 中 两 个 节点 的 最 小 
公共 祖先 (least common ancestor) 的 倒数 (inverse) 来 度量 层次 内 两 个 语义 类 别 距 离 的 方法 。 
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公共 祖先 是 在 层次 中 为 了 到 达 两 个 节点 必须 通过 的 节点 。 最 小 公共 祖先 是 层次 中 有 最 大 深度 
的 布点 。 如 果 两 个 节点 是 同一 个 节点 ， 距 离 为 0。 如 果 最 小 公共 祖先 是 根 节点 ， 则 距离 很 大 。 
图 9-10 显 示 了 如 何 用 层次 匹配 将 网 页 和 广告 进行 语义 匹配 。 在 图 中 ， 网 页 和 广告 类 的 最 小 公 
共 祖 先是 “Aquariums” ， 是 该 层次 的 最 高 节点 。 因 此 这 个 匹配 方式 ,与 将 网 页 和 广告 划分 在 
同一 个 节点 相 比 ,分数 比 较 低 。 广 告 的 全 部 打分 可 以 归纳 为 基于 层次 的 距离 和 标准 的 余弦 相 
似 度 计算 的 合并 。 这 样 ， 广 告 可 以 根据 话题 相关 性 和 语义 相关 性 排序 。 
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Discount Tropical Fish Food 
Feed your tropical fish a gourmet diet 
for just pennies a day! 
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图 9-10 语义 类 匹配 关于 彩虹 鱼 ( 热 带鱼 的 一 种 ) 网 页 和 热带 鱼 食物 的 广告 的 例子 。 节 点 
“Aquariums”、“Fish”、“Supplies” 是 语义 层次 内 的 节点 。 网 页 被 分 为 “水 族 馆 一 鱼 ”， 广 
告 被 分 为 “供给 一 鱼 ”"， 这 里 ,，“ 水 族 馆 ”是 最 小 公共 祖先 。 尽 管 网 页 和 广告 没有 共同 的 
词 但 因为 语义 相似 度 它们 能 够 匹配 


9.2 RÆ 


聚 类 算法 提供 了 另 一 种 组 织 数据 的 方法 。 和 本 章 中 的 分 类 算法 不 同 ， 聚 类 算法 基于 无 监 
(unsupervised) 学 习 ， 即 不 需要 任何 训练 数据 。 聚 类 算法 针对 一 个 没有 标注 的 实例 集合 ， 
对 所 有 实例 进行 分 组 〈 簇 ) 。 聚 类 的 一 个 问题 是 ， 它 常常 是 一 个 病态 问题 ， 分 类 有 很 清晰 的 目 
标 ,， 但是， 对 于 什么 是 好 的 聚 类 ， 定 义 往往 是 非常 主观 的 。 

为 了 更 多 地 了 解 聚 类 涉及 的 问题 ， 我 们 考察 一 下 人 类 是 如 何 对 事物 进行 分 门 别 类 的 。 设 
想 你 正在 一 个 杂货 店 中 ， 要 求 你 对 所 有 的 新 鲜果 蔬 RARR) 进行 聚 类 。 你 将 如 何 做 ? 
首先 ， 你 需要 决定 聚 类 时 应 该 采用 什么 标准 。 比 如 ， 你 可 能 按照 颜色 、 形 状 、 维 生 素 C 含 量 、 
价格 或 者 这 些 因素 的 其 他 组 合 对 这 些 果蔬 分 组 。 像 分 类 一 样 ， 聚 类 的 标准 很 大 程度 上 取决 于 
如 何 表示 事物 。 假 定 输入 的 实体 是 表示 某 个 对 象 ， 如 文档 (或 水 果 ) 的 特征 向 量 。 如 果 你 希望 按 
照 革 个 性 质 进行 聚 类 ， 那 么 确保 特征 向 量 表示 这 个 性 质 是 很 重要 的 。 

聚 类 标准 确定 之 后 ， 需 要 决定 如 何 将 每 个 事物 分 配 到 不 同 的 组 中 。 假 定 你 决定 按照 颜色 
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对 产品 聚 业 ， 并 且 创 建 了 一 个 红色 的 徐 〈 红 葡萄 、 红 苹果 ) 和 一 个 黄色 的 钞 (SR. BM), 
当 遇 到 一 个 橙子 时 怎么 办 ? 你 会 创建 一 个 新 的 梭 色 的 徐 ， 还 是 将 检 子 分 配 到 红色 或 黄色 的 
fe? 这 些 也 是 聚 类 算法 必须 要 解决 的 重要 问题 。 这 些 问 题 的 本 质 是 ， 使 用 多 少 个 得以 及 如 何 
将 事物 分 配 到 每 个 徐 。 

最 后 ， 将 所 有 的 产品 聚 类 之 后 ， 该 如 何 描述 聚 类 效果 如 何 ? EAL, BALE HT (evaluate) 
娶 类 结果 。 这 往往 是 很 难 的 ， 但 是 目前 人 们 已 经 提出 了 一 些 自动 化 的 评价 方法 。 

在 这 个 例子 中 ， 使 用 某 个 国定 的 性 质 集 合 如 “红色 ”来 定义 答 。 事 实 上， 这 是 一 种 非常 
明确 的 分 类 方式 ， 称 为 单 因 素 聚 类 〈monothetic) 。 在 第 6 章 ， 讨 论 过 单 因 素 类 或 徐 ， 同 时 提 到 
大 多 数 聚 类 算法 产生 多 因素 (polythetic) 徐 ， 其 中 一 个 簇 中 的 成 员 有 很 多 共同 的 性 质 ， 但 是 
无 法 给 出 单一 的 定义 。 换 名 话说 ， 答 中 的 成 员 一 般 是 基于 表示 这 些 对 象 的 特征 向 量 之 间 的 相 
似 度 (similarity) 而 被 聚 在 一 起 的 。 这 意味 着 聚 类 算法 关键 是 确定 相似 度 的 度量 方法 。 分 类 
PIR, AHEM (distance measure) ， 而 非 相似 度 度量 ， 在 后 面 的 讨论 中 ， 
使 用 这 个 术语 。 任 何 相 似 度 度量 ,一 般 为 一 个 从 0 到 1 的 值 $5， 可 以 通过 1 一 S 转 化 为 距离 度量 。 
从 事 信息 检 索 和 机 器 学 习 的 学 者 ， 研 究 过 各 种 相似 度 和 距离 度量 的 方法 ， 从 简单 的 度量 方法 
如 戴 斯 系数 (Dice’s coefficient) 〈 见 第 6 章 ) ， 到 更 复杂 的 概率 的 度量 方法 。 

阅读 本 节 的 时 候 ， 读 者 应 该 记 住 这 些 部 分 ， 因 为 它们 将 贯穿 始终 。 本 节 后 面 的 部 分 给 出 
三 种 基于 不 同方 法 的 聚 类 算法 ， 讨 论 了 评价 问题 ， 并 且 简 单 描述 了 育 类 的 一 些 应 用 。 

9.2.1 ERRBRMKE ERA 

在 此 给 出 两 种 聚 类 算法 ， 它 们 从 数据 的 某 个 初始 聚 类 出 发 ， 然 后 通过 优化 某 个 目标 函数 ， 
和 迭代 地 提高 聚 类 结果 。 两 个 算法 之 间 最 主要 的 差别 是 目标 函数 的 不 同 。 后 面 将 显示 ， 不 同 的 
目标 函数 会 产生 不 同类 型 的 化 ， 因 此 ， 并 不 存在 最 好 的 聚 类 算法 ， 选 择 什么 算法 很 大 程度 上 
取决 于 数据 集 和 任务 的 特点 。 

在 本 节 其 余 的 部 分 ， 都 假设 目标 是 将 某 个 包含 N 个 实例 (例如 ， 可 能 是 网 页 ) 的 集合 进行 
聚 类 ， 育 成 kK 个 徐 ， 每 个 实例 表示 成 一 个 特征 向 量 ， 其 中 是 一 个 由 先 验 知识 (a priori) 决定 
的 常量 。 

1. 层次 聚 类 

层次 谷类 (Hierarchical clustering) 是 一 种 以 分 层 的 方式 建立 签 的 方法 。 这 种 方法 有 很 多 
不 同 的 聚 类 算法 ， 这 些 算法 往往 根据 算法 的 过 程 分 成 两 类 。 

DARA (Divisive clustering) 从 一 个 包含 所 有 实例 的 答 开 始 。 每 一 次 迭代 时 ， 它 从 现 
ARIE PLETED RIT (BREESE) 徐 。 不 断 进 行 这 个 过 程 ， 直 到 总 共产 生 K 个 秒 。 
算法 的 结果 很 大 程度 上 取决 于 如 何 选择 和 分 割 徐 。 

分 裂 诊 类 是 一 种 自 顶 向 下 (top-down) 的 方法 。 另 一 种 类 型 的 层次 分 类 算法 称 为 聚合 聚 
类 (agglomerative clustering) ， 它 是 一 种 自 底 向 上 (bottom-up) 的 方法 。 图 9-11 和 图 9-12 解 
释 了 两 种 算法 的 差异 。 一 个 聚合 聚 类 算法 开始 时 把 每 一 个 输入 实例 都 当成 单独 的 锻 ， 即 包含 N 
个 化 ， 每 个 簿 中 包含 一 个 输入 。 聚 类 算法 每 次 将 两 个 〈 或 可 能 更 多 ) 现 有 的 铸 合 并 成 一 个 新 
的 答 。 因 此 ， 每 一 次 迭代 都 使 徐 的 总 数 下降 。 当 剩余 K 个 徐 时 ， 算 法 停止 。 与 分 裂 育 类 类 似 ， 
这 个 算法 的 输出 主要 取决 于 如 何 选 择 和 合并 簇 。 
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图 9-11 Kk=4 的 分 割 诊 类 示例 。 育 类 过 程 从 左 向 右 ， 从 上 向 下 进行 ， 产 生 4 个 靠 


一 个 吝 合 或 分 裂 府 类 算法 产生 分 层 的 过 程 ， 可 以 很 方便 地 应 用 树 状 图 (dendrogram) 9 形 
象 地 展现 ,一 个 树 状 图 以 图 解 方式 表示 一 个 层次 聚 类 算法 如 何 工作 。 图 9-13 给 出 了 一 个 树 状 图 ， 
对 应 图 9-12 中 的 样本 点 ， 通 过 聚合 聚 类 算法 得 到 分 层 结 构 。 在 这 个 树 状 图 中 ， 点 D 和 E 首 先 合 
并 形成 一 个 新 的 乌 了 可。 然后 B 和 C 合 并 成 笠 I。 这 个 过 程 一 直 继 续 ， 直 到 产生 单一 的 往 M， 狂 M 
由 A、B、C、D、BE 和 F 构 成 。 在 一 个 树 状 图 中 ， 实 例 合 并 时 ， 在 树 中 所 处 的 高 度 是 很 重要 的 ， 
它 表示 了 合并 时 两 个 簇 的 相似 性 (或 距离 )。 例 如 ， 树 状 图 显示 D 和 BE 是 最 相似 的 实例 对 。 
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图 9-12 天 =4 的 育 合 聚 类 示例 。 窜 类 过 程 从 左 向 右 ， 从 上 向 下 进行 ， 产 生 4 个 镀 


日 来 自 于 希腊 词语 “dendron”， 意 思 是 树 。 
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图 9-13 解释 对 图 9-12 中 的 样本 点 进行 聚合 豪 类 的 树 状 图 





算法 1 BARK 
1: procedure AGGLOMERATIVECLUSTER(X},..., Xy, K) 
2: A(l],..., AIN] —1,...,N 
3: ids — {1,...,N} 
4 forc = N to K do 
5: bestcost +— co 
6: bestcluster A — undefined 
7: bestclusterB — undefined 
8: fori € ids do 
9: for j € ids — {i} do 


10: Cig 二 COST(C;, C;) 
11: if cij < bestcost then 
12: bestcost — ci,y 

13: bestclusterA — i 
14: bestclusterB — j 
15: end if 

16: end for 

17: end for 

18: ids — ids — {bestCluster A} 
19: fori = 1 to N do 

20: if Afi] is equal to bestCluster A then 
21: Ali] — bestCluster B 
22: end if 

23: end for 

24: end for 


25: end procedure 


RELERRRARKN—T BRS. GENTS EX, X,, …, X% 表 示 实 例 ， 以 希 
望 得 到 的 徐 数 K 作 为 输入 。 数 组 (向量 ) 4 是 结果 向 量 ， 它 用 来 记录 每 一 个 输入 属于 哪个 簇 。 
ARAL], 那么 输入 X; 在 答 j 中 。 这 个 算法 考虑 将 每 两 个 徐 合 并 起 来 ， 对 每 一 个 徐 对 (C, C), 
计算 出 一 个 代价 C(C;, C)。 这 个 代价 表示 将 两 个 簇 Cj 和 CGC 合并 起 来 需要 付出 的 代价 。 我 们 很 快 
会 介绍 如 何 计算 代价 。 计 算出 所 有 的 敌对 的 代价 之 后 ， 选 出 合并 代价 最 低 的 两 个 答 ， 算 法 一 


日 ”文献 中 经 常 称 为 HAC。 
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Hitt, HBA RK SEALE. 
如 算法 1 所 示 ， 聚合 聚 类 主要 取决 于 代价 函数 。 有 很 多 方式 定义 代价 函数 ， 每 一 个 都 会 使 
最 终 的 聚 类 结果 具有 不 同 的 特点 。 现 在 介绍 一 些 很 流行 的 方法 及 它们 的 原理 。 
单 连 通 (single linkage) 方法 通过 计算 C 中 每 个 实例 和 C) 中 每 个 实例 之 间 的 距离 ， 来 衡量 
Ci 和 Ci) 的 代价 。 这 些 距 离 中 最 小 (minimum) 的 就 是 代价 ， 可 以 用 数学 公式 表示 : 
COST (C,, C))=min{dist(X,, X)IXEC;, XEC} 


其 中 dist 表 示 输 入 X; 和 X 的 距离 。 通 常 使 用 欧 几 里 得 距离 9 计算 X, 和 XX 的 距离 ， 但 是 也 可 以 使 
用 很 多 其 他 距离 度量 方法 。 单 连通 只 依赖 于 两 个 徐 之 间 的 最 小 距离 ， 它 不 考虑 两 个 猎 中 其 他 
实例 相距 多 远 。 因 此 ， 单 连通 可 能 使 两 个 簇 合 并 后 产生 长 形 的 簇 。 
全 连通 (complete linkage) 和 单 连通 类 似 。 它 首先 计算 两 个 往 中 每 一 对 实例 之 间 的 距离 。 
是 它 使 用 最 大 距离 作为 代价 ， 而 不 是 最 小 距离 。 即 代价 是 : 
COST (C,, C)=max{dist(X,, X)IX,EC,, XEC}} 


APRA RARER, SHERHE, G3 PEER, BAT “BK” Kik 
的 产生 。 

可 以 通过 图 9-14 解 释 单 连通 和 爹 连 通 的 差别 。 图 中 节点 表示 实例 (如 X,)， 当 dist(X, X) < 
THY, OR ERR, THR. AT, BAL BACHE MER. HR 
上 ， 单 连通 徐 是 图 中 的 相连 部 件 ， 敌 中 每 一 个 成 员 都 至 少 和 另 一 个 成 员 相连 。 爹 连通 艇 将 包 
括 徐 A、 单 元 繁 C、 筷 B 上 面 的 实例 对 以 及 簇 B 下 面 的 实例 对 。 爹 连通 徐 是 图 中 的 团 (clique) 或 
最 大 完全 子 图 ， 往 中 每 一 个 成 员 都 和 其 他 成 员 相 连 。 

eC 


HRA 


‘I 


图 9-14 图 中 节点 表示 实例 ， 通 过 连接 这 些 节 点 得 到 聚 娄 结果。 两 个 节点 之 间 存 在 连接 表示 
两 个 实例 间 的 距离 小 于 某 个 国 值 
平均 连通 (average linkage) 是 单 连通 和 全 连通 的 折 中 方案 。 和 之 前 一 样 ， 计 算出 Cj 和 CC; 


中 每 两 个 实例 对 的 距离 。 正如 其 名 字 所 隐 含 的 ， 平均 连通 使 用 所 有 实例 对 代价 的 平均 值 ， 因 
be, ROTA: 


Duce, ræ, HK X)) 


T(C,, C) = 
COST(G, C;)= IC, UCT 


O ”两 个 向 量 x 和 y 之 间 的 欧 几 里 得 距离 公式 为 ， (zx -六 )”， 其 中 下 标 表 示 向 量 中 第 ;个 元 素 。 
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其 中 IC 和 IC 分别 表示 簇 C 和 Ci 中 的 实例 数 。 使 用 平均 连通 得 到 的 徐 的 样式 ， 很 大 程度 上 取决 
于 徐 的 结构 ， 因 为 代价 的 计算 基于 两 个 化 中 所 有 实例 对 的 距离 的 平均 值 。 

平均 组 连通 (average group linkage) 和 平均 连通 联系 紧密 。 其 代价 计算 公式 为 ， 

COST(C,, C) = dist (Hcp Ue) 
x ` . ` Ae yy 

其 中 ue = Lae” gc tis (centroid), 个 入 的 质心 是 秘 中 所 有 实例 的 平均 。 注 意 ， 
质心 是 一 个 和 输入 实例 维度 相同 的 向 量 。 因 此 ， 平 均 组 连通 使 用 质心 表示 繁 ， 使 用 质心 的 距 
离 计 算 代 价 。 使 用 平均 组 连通 得 到 的 丛 和 使 用 平均 连通 得 到 的 徐 类 似 。 

图 9-15 直 观 总 结 了 以 上 介绍 的 四 种 代价 函数 。 具 体 地 说 ， 它 显示 了 对 图 9-11 和 图 9-12 中 的 
点 计算 代价 函数 时 ， 使 用 到 了 哪些 实例 (质心 ) 对 。 














图 9-15 解释 如 何 计 算 各 种 聚 类 代价 函数 


最 后 介绍 华 德 法 (Ward’s method) 。 不 像 之 前 的 代价 函数 都 是 基于 两 个 化 之 间 的 距离 ， 华 
德 法 基于 方差 (variance) 统计 性 质 。 一 个 数字 集 的 方差 衡量 数字 的 分 散 程度 。 华 德 法 尝试 最 
小 化 徐 方 差 的 上 总和。 这样 得 到 的 敌 会 很 紧凑 ， 所 有 的 成 员 最 小 地 分 散在 答 的 质心 周围 ， 代 价 
的 计算 比 之 前 的 方法 稍微 复杂 一 些 : 


COST(C,, C,)= DP Me, (X= Hc) 
=i, j. k 


+ (Xx - Hauc) (X- Hauc) 
其 中 CiU CERCA PRR, Hut U CRUD. RiT RTE TAN A 
合并 起 来 的 化 内 方差 。 
上 面 5 种 聚合 聚 类 方法 娜 个 最 好 ? 答案 依然 取决 于 数据 集合 和 具体 应 用 。 如 果 已 知 数据 的 
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内 在 结构 ， 那 么 可 以 根据 这 个 知识 决定 哪个 算法 最 好 。 然 而 一 般 需 要 通过 实验 和 评测 确定 最 
好 的 方法 。 信 息 检 索 实验 中 使 用 层次 聚 类 时 ， 平 均 连通 聚 类 通常 是 最 有 效 的 。 虽 然 聚 类 是 一 
种 无 监督 的 方法 ， 然 而 最 终 也 没有 免费 的 午餐 ， 可 能 还 需要 某 种 人 工 评价 。 

效率 是 所 有 的 聚 类 算法 需要 面 对 的 问题 。 因 为 需要 计算 比较 每 个 实例 和 所 有 其 他 实例 ， 
所 以 对 于 N 个 实例 ， 最 有 效率 的 方法 也 需要 OCN”)， 这 限制 了 聚 类 应 用 中 的 实例 数 。 我 们 下 面 
介绍 的 聚 类 算法 ，K 均 值 (K-mean)， 产 生 一 个 扁平 (flat) 的 聚 类 ， 或 划分 (partition), Ti 
不 是 层次 的 聚 类 ， 因 此 效率 更 高 。 

2. 开 均值 

有 均值 算法 和 前 面 介 绍 的 层次 聚 类 算法 本 质 上 不 同 。 例 如 ， 聚 合 聚 类 算 靶 对 N 个 锻 ， 根 据 
代价 函数 ， 选 代 地 合并 两 个 〈 或 更 多 ) 徐 。 随 着 算法 的 进行 ， 矮 的 数目 不 断 减少 。 此 外 ， 这 
个 算法 的 特点 是 ， 一 旦 实例 XX 和 XX 被 合并 到 一 个 儿 中 ， 那 么 之 后 这 两 个 实例 就 不 会 再 被 分 开 到 
FEHER, 

MKS, RAR APRA. LARAK IEA, KARER, BK 
代 中 ， 每 个 实例 要 么 保留 在 原 有 徐 中 ， 要 么 被 分 配 到 一 个 其 他 的 答 中 。 这 个 过 程 不 断 重 复 ， 
直到 满足 某 个 停止 标准 。 

均值 算法 的 目标 是 找到 亭 类 分 配方 案 ， 表 示 为 分 配 向 量 A[1], …, A[N]， 使 得 如 下 代价 函 
数 最 小 : 


COST(A[1],…, ALN]) = > dist(X,, C,) 
=| ikAlr=k 


其 中 disi(X;, CD 表示 实例 Xi 和 类 Ci 的 距离 。 和 各 种 层次 聚 类 算法 中 的 代价 函数 相同 ， 这 个 距离 
度量 可 选择 任何 合理 的 度量 方法 。 但 是 一 般 它 表示 为 如 下 公式 : 
dist(X,, C,) =I X, - Ue, IP 
= (X, - ha) (X, - He, ) 


即 X; 和 wc, 欧 儿 里 得 距离 的 平方 。 其 中 以 ,是 簇 C, 的 质心 。 注 意 ， 这 个 距离 度量 和 用 于 聚合 聚 类 
的 华 德 法 中 使 用 的 代价 函数 相似 。 因 此 ， 这 个 方法 尝试 使 簇 内 方差 最 小 。 

作为 另 一 种 选择 ，X 和 的 余弦 相似 度 也 可 以 作为 距离 度量 的 一 种 方法 。 如 第 7 章 所 述 ， 
余弦 相似 度 衡量 两 个 向 量 的 夹 角 。 对 于 某 些 文本 应 用 ， 佘 弦 相似 度 证 明 比 欧 几 里 得 距离 更 有 
效 。 这 种 形式 的 K 均 值 称 为 球面 K 均 值 (spherical K-mean), . 

解决 这 个 优化 问题 最 朴素 的 方法 之 一 是 ， 尝 试 组 合 所 有 可 能 的 京 类 分 配 。 然 而 ， 对 于 大 
规模 数据 集 ， 这 个 方法 是 不 可 行 的 ， 因 为 它 需 要 指数 级 的 计算 复杂 度 。K 均 值 算法 放弃 查找 全 
局 最 优 解 ， 使 用 一 个 近似 的 启发 式 的 方法 ， 使 欠 代 的 计算 复杂 度 最 小 化 ， 这 个 方法 不 能 保证 
得 到 全 局 最 优 解 。 事 实 上 ， 它 甚至 不 保证 局 部 最 优 。 尽 管 这 个 算法 是 启发 式 的 ， 但 是 在 实际 
中 却 很 有 效 。 

算法 2 给 出 了 K 均 值 的 一 种 可 实现 的 伪 代 码 。 这 个 算法 开始 首先 初始 化 聚 类 分 配方 案 , 或 
者 随机 分 配 实例 到 各 个 徐 中 ， 或 者 利用 有 关 数 据 的 一 些 知识 ， 决 定 更 有 根据 的 分 配方 案 。 然 
后 ， 算 法 如 下 选 代 进 行 : 根据 距离 度量 dist(&，CD， 每 一 个 实例 被 分 配 到 最 近 的 往 中 。 变 量 
change 记 录 本 次 选 代 中 每 个 实例 所 属 的 得 是 否 改变 。 如 果 某 些 实例 所 属 的 秘 改 变 了 ， 那 么 算 
法 继续 进行 ， 否 则 算法 终止 。 另 一 个 合理 的 停止 标准 是 确定 算法 的 迭代 次 数 。 
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算法 2 ”AK- 均 值 聚 类 
1: procedure KMEANSCLUSTER(X1,..., XN, K) 
2: A[l],.-., A[N] — initial cluster assignment 
3 repeat 

4 change 二 false 

5: fori = 1 to N do 

6 be arg ming, dist(X;, Ck) 

7 if Ali] is not equal k then 

8 


9: change e- true 
10: end if 
11: end for 


12: until change is equal to false return A[l], ..., A[N] 
13: end procedure 


实际 中 ， 玉 均值 聚 类 往往 很 快 收敛 到 一 个 解 。 虽 然 它 不 保证 得 到 最 优 解 ， 但 是 得 到 的 解 常 
常 是 接近 最 优 。 与 层次 聚 类 相 比 ， 天 均值 更 加 有 效 。 特 别 地 ， 由 于 每 次 多 代 需 要 K&N 次 距离 计 
算 ， 进 代 次 数 很 小 ， 开 均值 的 复杂 度 为 CIK， 而 不 是 层次 聚 类 的 O(NW)。 尽 管 K 均 值 产生 的 竹 
依赖 于 起 始点 选择 COURT) 和 数据 输入 顺序 ， 但 是 它 产 生 的 徐 的 质量 一 般 和 层次 聚 类 相 侯 。 
因此 ， 对 于 很 多 种 与 搜索 引擎 相关 的 任务 ， 尤 其 是 大 数据 集 ， 天 均值 都 是 一 种 通用 聚 类 算法 。 


9.2.2 KERR 

虽然 从 算法 角度 看 层次 诊 类 和 KK 均值 诊 类 是 不 同 的 ， 但 是 它们 的 一 个 共同 点 是 ， 它 们 把 每 
一 个 输入 分 配 到 唯一 的 徐 中 ， 即 簇 之 闻 不 重 倒 9。 因此， 这 些 算法 将 输入 实例 划分 (partition) 
到 K 个 部 分 GE) 中 。 然 而 ， 对 于 某 些 任务 ， 人 允许 徐 互 相 重 登 可 能 有 用 。 产 生 互 相 重 县 的 徐 的 
一 种 非常 简单 的 方法 ， 称 为 Kk 近邻 聚 类 (K nearest neighbor clustering) 。 一 定 要 注意 ， 这 里 的 
和 均值 中 的 K 很 不 相同 ， 这 一 点 很 快 会 变 得 很 明了 。 

在 K 近 邻 附 类 中 ， 围 绕 每 一 个 输入 实例 形成 一 个 答 。 对 于 输入 实例 x+， 根据 某 个 距离 衡量 
标准 ， 距 离 x 最 近 的 K 个 点 和 x 本 身 构 成 一 个 签 。 图 9-16 给 出 一 些 例子 ， 对 于 点 4、B、C 和 DD 形 
成 了 K=5 的 近邻 给。 虽然 图 中 只 显示 了 围绕 这 四 个 实例 的 和 给， 实际 上 每 一 个 输入 实例 都 对 应 
一 个 匀 ， 因 此 会 产生 N 个 得。 

如 图 9-16 所 示 ， 这 个 算法 常常 无 甘 找 到 有 意义 的 悉 。 在 输入 空间 的 稀疏 区 域 ， 如 D 的 周围， 
分 配给 D 的 点 距离 D 很 远 ， 很 可 能 不 应 该 和 D 分 配 在 同一 个 徐 中 。 然 而 对 于 输入 空间 的 密集 区 
域 ， 如 B 的 周围 ， 徐 可 以 很 好 地 定义 ， 尽 管 一 些 相 关 的 输入 由 于 KK 太 小 被 排除 在 外 。 使 用 K 近 
邻 聚 类 的 应 用 ， 通 常 强调 找到 少数 紧密 关联 的 实例 〈 如 准确 率 ) ， 而 不 是 所 有 紧密 相关 的 实例 
(召回 率 ) 。 

玉 近 邻 聚 类 可 能 代价 非常 高 ， 因 为 它 需 要 计算 每 一 对 实例 的 距离 。 如 果 假 设计 算 两 个 输入 
实例 的 距离 需要 与 KR 和 NN 相关 的 常量 时 间 ， 那 么 这 种 计算 需要 O(N”)。 得 到 这 些 距离 后 ， 需 要 
O(N 的 时 间 得 到 所 有 点 的 K 近 邻 。 因 此 KK 近邻 职 类 总 的 时 间 复 杂 度 为 O(N”)， 和 层次 诊 类 相同 。 

对 于 某 些 应 用 ，K 近 邻 聚 类 是 最 好 的 选择 ， 尤 其 当 任 务 的 输入 空间 很 密集 ， 同 时 为 每 一 个 
输入 找到 一 些 相关 实例 很 有 用 或 很 重要 时 。 这 些 任务 包括 语言 模型 平 消 、 文 档 分 值 平 清和 擅 


日 ”注意 ， 从 树 状 图 的 某 一 层 的 簇 来 看 这 是 真 的 。 树 状 图 中 ， 不 同 层 的 簇 却 互相 重合。 
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相关 反馈 。 我 们 后 续 会 介绍 如 何 将 聚 类 应 用 于 平滑 。 
c 
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图 9-16 EAK- ERRERA. APA RA (A, BL CAD) HARR 
的 徐 。 每 个 黑 点 的 5 个 最 近邻 点 染 成 灰色 并 且 标 记 出 来 


9.2.3 评价 


评价 一 个 聚 类 算法 是 很 有 挑战 的 。 由 于 聚 类 是 一 种 无 监督 学 习 算法 ， 往 往 没 有 或 者 只 有 
很 少 用 于 评价 的 标注 数据 。 如 果 没 有 标注 的 训练 数据 ， 有 时 可 以 使 用 一 个 目标 函数 ， 比 如 亭 
类 算法 尝试 最 小 化 的 那个 目标 函数 ， 从 而 评价 聚 类 结果 的 质量 。 然 而 这 是 一 个 “ 先 有 鸡 或 先 
有 蛋 ” 的 问题 ， 原 因 是 算法 定义 了 评价 指标 ， 反 之 亦 然 。 

如 果 存 在 一 些 标 注 数 据 ， 那 么 可 以 使 用 标准 信息 检索 评价 方法 (如 准确 率 和 召回 率 ) 来 评价 
聚 类 质量 。 聚 类 算法 为 每 个 输入 实例 分 配 一 个 秒 标 识 符 ， 镁 标识 符 是 任意 的 ， 没 有 明确 的 意 
义 。 例 如 ， 将 一 些 电子 邮件 聚 类 成 两 个 舌 ， 一 些 邮 件 被 分 配 到 徐 标 识 符 1， 而 其 他 的 被 分 配 到 
和 做 2。 不 但 灸 标识 符 没 有 任何 含义 ， 繁 本 身 也 可 能 不 存在 有 意义 的 解释 。 例 如 ， 有 人 可 能 希望 
一 个 灸 对 应 垃圾 邮件 ， 另 一 个 簇 对 应 非 垃圾 邮件 ， 但 可 能 并 不 属实 。 因 此 ， 定 义 准 确 率 、 召 
回 率 时 必须 谨慎 。 

一 个 常用 的 衡量 准确 率 的 方法 如 下 。 首 先 ， 算 法 将 输入 实例 聚 成 KE=ICI 个 徐 。 然 后 ， 对 每 
一 个 悉 C;, 定义 MaxClass(C) 表 示 和 Ci 中 大 多 数 实例 相关 的 类 标签 (由 人 指定 )。 由 于 在 乱 C; 中 ， 
与 其 他 类 标签 相 比 ,更 多 的 相关 实例 的 标签 为 MaxClass(C)， 因 此 假定 它 是 正确 的 标签 。 因 此 ， 
灸 Ci 的 准确 率 为 Ci 中 标签 为 MaxClass(Cj) 的 实例 比例 。 这 个 衡量 指标 常常 使 用 所 有 实例 的 微 平 
均 (microaveraged) 来 表示 ， 公 式 如 下 : 


. >. | MaxClass(C,) | 
BER = 全 


N 
其 中 IMaxClass(C))l 表 示 笨 C; 中 标签 为 MaxClass(C)) 的 实例 数 。 如 果 每 个 答对 应 一 个 类 标签 ， 并 
且 乱 中 的 每 一 个 成 员 的 标签 和 这 个 标签 相同 ， 那 么 这 个 衡量 值 为 1。 
在 很 多 搜索 应 用 中 ， 聚 类 只 是 其 中 一 种 使 用 到 的 技术 。 一 般 来 讲 ， 聚 类 算法 的 输出 结果 
作为 某 个 复杂 的 端 对 端 系统 的 一 部 分 使 用 。 在 这 些 情况 下 ， 分 析 和 评价 聚 类 算法 对 整个 端 对 
端 系 统 的 影响 是 很 重要 的 。 例 如 ， 如 果 聚 类 作为 网 络 搜索 引擎 的 一 部 分 ， 用 以 提高 排序 质量 ， 
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那么 可 以 通过 评价 它 对 排序 效果 的 影响 ， 来 衡量 和 调节 聚 类 算法 。 这 样 做 可 能 会 很 困难 ， 因 
为 端 到 端 系 统 往往 很 复杂 ， 很 难 理解 ， 并 且 可 能 存在 很 多 影响 排序 的 因素 。 
9.2.4 如 何 选择 K 

到 目前 为 止 ， 我 们 在 很 大 程度 上 忽略 了 如 何 选择 上 E。 在 层次 聚 类 和 天 均值 聚 类 中 KER 
忽 的 数目 。 在 K 近 邻 平滑 中 ，K 表 示 使 用 的 近邻 数目 。 虽 然 这 两 种 情况 本 质 上 不 同 ， 但 是 都 很 
难 完全 自动 地 设 定 合适 的 K 值 。 选 择 K 的 问题 是 聚 类 中 最 困难 的 问题 之 一 ， 因 为 实在 没有 好 的 
解决 方案 。 不 存在 一 个 神奇 的 公式 ， 可 以 确定 任何 情形 下 簇 的 最 优 数目 。 相 反 ; K 的 最 优选 择 
很 大 程度 上 依赖 于 具体 的 任务 和 数据 集 。 因 此 ，K 常 常 以 实验 的 方式 选择 。 

在 某 些 情况 下 ， 应 用 本 身 会 表明 应 该 使 用 的 禾 的 数目 。 但 是 这 种 情况 很 少见 。 大 多 数 情 
况 下 ， 应 用 本 身 不 会 提供 最 优 K 值 的 线索 。 事 实 上 ， 甚 至 K 的 范围 也 可 能 不 明显 。 应 该 使 用 2 
ABI 1047 1004+? 1 000 个 ?没有 更 好 的 办 法 去 选择 上 ， 只 能 不 断 地 实验 ， 并 且 评 价 在 K 不 
同时 聚 类 结果 的 效果 。 

对 于 晨 次 聚 类 ， 可 以 创建 整个 能 的 层次 结构 ， 然 后 根据 某 种 机 制 ， 决 定 使 用 哪 一 层 作为 
豪 类 结果 。 大 多 数 情况 下 ， 铀 的 数目 由 人 选择 ， 甚 至 对 于 层次 育 类 也 是 如 此 。 

形成 KE 近邻 狂 后 ， 可 以 使 用 一 个 有 适应 性 的 KK。 意思 是 ， 对 于 非常 密集 的 区 域 中 的 实例 ， 
使 用 一 个 很 大 的 K 可 能 会 有 用 ， 因 为 近邻 点 有 可 能 相关 。 类 似 地 ， 对 于 非常 稀疏 的 区 域 ， 最 好 
只 选择 很 少 个 近邻 点 ， 因 为 K 值 太 大 可 能 会 导致 一 些 无 关 的 近邻 点 包含 进来 。 这 个 想法 和 巴尔 
森 窗 式 法 (Parzen window) S 紧 密 相关 。 巴 尔 森 窗 式 法 是 分 类 中 近邻 的 一 种 变形 。 在 巴尔 
森 窗 式 法 中 ， 近 邻 点 的 数目 不 固定 。 相 反 ， 某 一 个 固定 距离 (“窗口 ”") 内 的 所 有 实例 都 认为 
是 近邻 点 。 这 样 ， 密 集 区 域 的 实例 将 有 很 多 近邻 点 ， 而 稀疏 区 域 的 实例 则 很 少 。 图 9-17 给 出 
了 使 用 巴尔 森 窗 式 法 对 图 9-16 中 的 点 进行 聚 类 的 结果 。 可 以 看 到 ， 更 少 的 离 群 点 被 错误 地 分 
配 到 稀疏 区 域 的 点 (如 点 C) MAME, 而 更 多 的 近邻 点 被 分 配给 密集 区 域 中 的 点 (如 点 B) 。 
然而 ， 这 样 形成 的 卵 并 不 完全 正确 ， 聚 类 的 质量 此 时 取决 于 窗口 大 小 。 因 此 ， 虽 然 这 种 方法 
不 需要 选择 K， 却 需要 选择 窗口 大 小 ， 而 这 可 能 是 同样 具有 挑战 性 的 。 





图 9-17 使 用 巴尔 森 窗 式 法 产生 互相 重生 的 京 类 结果 。 图 中 给 出 了 对 应 黑 点 (A、B、C 和 D) 
的 包 。 阴 影 图 表示 用 来 确定 所 属 铸 的 窗口 。 每 个 黑 点 的 近邻 被 染 成 灰色 并 且 标 记 出 来 


”命名 以 纪念 Emanuel Parzen， 一 位 美国 统计 学 家 。 
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9.2.5 聚 类 和 搜索 

聚 类 算法 存在 的 一 些 问 题 导致 它们 在 实际 中 不 像 分 类 算法 那样 被 广 兴 应用。 这 些 问 题 包 
括 计算 代价 ， 以 及 难于 解释 和 评价 诊 类 结果 。 诊 类 被 一 些 搜索 引擎 用 来 组 织 搜索 结果 ， 如 
6.3.3 节 所 讨论 的 。 与 文档 集合 规模 相 比 ， 搜 索 结果 的 数量 是 很 小 的 ， 因 此 诊 类 的 效率 问题 便 
不 那么 重要 了 。 育 类 可 以 发 现任 何 查询 得 到 的 搜索 结果 的 结构 ， 而 分 类 则 不 可 能 做 到 。 

在 7.6.2 节 讨论 的 话题 建 模 ， 也 可 以 看 成 是 一 个 聚 类 应 用 ， 用 以 提高 搜索 引擎 的 排序 效果 。 
实际 上 ， 大 多 数 使 用 聚 类 的 信息 检索 研究 都 关注 这 个 目标 。 这 个 研究 的 基础 是 有 名 的 乱 假 设 
(cluster hypothesis), 。 如 van Rijsbergen(1979) 最 早 所 述 ， 狂 假设 是 : 


紧密 联系 的 文档 往往 和 相同 的 请 求 相关 。 


注意 这 个 假设 实际 上 没有 提 到 徐 。 然 而 ,“ 紧 密 联 系 的 ”或 者 相似 的 文档 ， 通 常 在 同一 个 
秒 中 。 因 此 ， 这 个 假设 通常 解释 为 同一 簇 中 的 文档 往往 和 相同 查询 相关 。 

两 个 不 同 的 测试 被 用 来 验证 徐 假 设 对 一 个 特定 文档 集 是 否 适用 。 第 一 个 测试 比较 相关 文 
档 对 (针对 一 组 查询 ) 的 相似 度 分 值 的 分 布 ， 和 由 一 个 相关 和 一 个 不 相关 文档 组 成 的 文档 对 
的 相似 度 分 值 的 分 布 。 如 果 徐 假设 成 立 ， 将 会 看 到 这 两 个 分 布 相互 分 离 。 在 一 些小 规模 语 料 
上 ， 如 第 8 章 提 到 的 CACM 语 料 ， 情 况 的 确 如 此 。 然 而 ， 如 果 存 在 相关 文档 的 一 些 筷 ， 这 些 纺 
彼此 不 相似 ， 那 么 这 个 测试 可 能 不 会 显示 任何 分 离 。 为 了 解决 这 个 潜在 的 问题 ，Voorhees 
(1985) 提出 一 个 测试 ， 所 基于 的 假设 是 ， 如 果 秘 假设 成 立 ， 相 关 文 档 会 有 高 的 局 部 准确 率 
(local precision)， 即 使 它们 分 散 到 很 多 个 入 中 。 局 部 准确 率 简 单 地 衡量 每 个 相关 文档 前 五 个 
近邻 点 中 属于 相关 文档 的 数目 。 

图 9-18 给 出 在 两 个 TREC 数 据 集 上 的 签 假 设 测 试 结果 。 这 些 数 据 集 有 相似 类 型 的 文档 ， 包 
括 很 多 新 闻 报 道 。 从 上 典型 MAP 值 来 看 ， 数 据 集 robust 上 的 250 个 查询 比 trec12 上 的 150 个 查询 要 
难 。 图 上 面 的 两 个 测试 显示 对 于 两 个 数据 集 ， 相 似 度 值 分 布 的 分 离 很 小 。 然 而 下 面 的 两 个 测 
试 显示 trec12 上 相关 文档 有 高 的 局 部 准确 率 。robust 上 的 局 部 准确 率 低 一 些 ,说 明 相关 文档 更 
加 孤立 ， 因 此 更 难 被 检索 。 

假设 至 少 对 一 些 数 据 集合 查询 而 言 ， 簇 假设 成 立 ， 下 一 个 问题 是 在 检索 模型 中 如 何 采 用 
它 。 事 实 上 有 很 多 方法 。 第 一 种 方法 ， 基 于 签 的 检索 (cluster-based retrieval), HHTH, 
而 不 是 对 单独 的 文档 排序 。 例 如 ， 如 果 有 天 个 镀 C,…Cx， 可 以 使 用 查询 似 然 度 检索 模型 对 徐 排 
序 。 这 意味 着 可 以 通过 P(QIC) 排 序 ，Q 表 示 查 询 ， 同 时 : 


PIC) = | [Peicn) 


概率 P(gjC) 是 通过 一 个 基于 簇 中 词 频 的 平滑 后 的 一 元 语言 模型 估计 ， 如 第 7 章 对 文档 排序 
那样 。 往 排序 之 后 ， 每 个 灸 中 的 文档 可 以 分 别 排 序 以 在 结果 列表 中 显示 。 这 种 排序 方法 背后 
的 直觉 是 ， 一 个 化 语言 模型 佑 计 重 要 词 的 概率 ， 比 基于 文档 的 估计 会 更 好 。 事 实 上 ， 一 个 与 
查询 没有 相同 项 的 相关 文档 ， 可 能 会 被 检索 出 来 ， 如 果 它 和 其 他 相关 文档 居于 一 个 排序 很 高 
HARE. 

除了 使 用 这 种 两 阶段 的 过 程 I ST A PHAR RA BI MBBS 
模型 ， 





DK FORK 235 


Sup +6 Íoc, + A weet Íu cou 


PwID)=(1-A-6 
SELS Dl ie colt 











0.0 0.2 0.4 06 08 10 ; 0.0 02 04 06 08 10 


1500 ~ 
4000 


3000 a 
He - 
IX 2000 a 

1000 = ae - 

4 > 


0 02 04 06 08 1 0 02 04 06 08 1 


ag. 1000 
K 


500 





0 


.图 9-18 两 个 TREC 数 据 集 上 的 入 假设 测试， 上 面 两 个 图 比较 “相关 一 -相关 ” 和 “相关 一 不 相关 ” 
( 浅 灰 色 ) 文档 的 相似 度 值 分 布 。 下 面 两 个 图 给 出 相关 文档 的 局 部 准确 率 


其 中 ，4 和 6 为 参数 ，fo 是 文档 D 中 的 词 频 ， foc BA DIRC HIT, fcol 是 数据 集 Coll 上 的 

词 频 。 第 二 项 来 自 于 徐 语 言 模型 ， 它 增加 了 在 入 中 频繁 出 现 井 且 有 可 能 和 文档 主题 相关 的 词 

的 概率 。 换 句 话说 ， 灸 语言 模型 使 这 个 文档 与 馈 中 的 其 他 文档 更 相似 。 这 个 基于 簇 平 滑 的 文 

档 语言 模型 可 以 被 查询 似 然 检索 模型 直接 采用 ， 如 7.3.1 节 介绍 的 那样 ， 对 文档 进行 相关 排序 。 
Sr ee 


P(wID)=(1-A-6 6 ho epic. Focon 
heen yes dic | ( +A 





这 种 情况 下 ， 文 档 语言 模型 对 词 w 概 率 估计 的 第 二 项 ， 是 所 有 戏 的 语言 模型 概率 的 加 权 和 。 权 
{A(P(DIC) EXERT RC 的 概率 。 也 可 以 简单 认为 PLDIC) 对 于 包含 乙 的 徐 都 相同 ， 而 对 其 他 
RAN. 

棕 索 实验 证 明 ， 检 索 徐 可 以 对 效果 产生 小 的 但 是 可 变 的 提高 ， 另 一 方面 ， 利 用 基于 灸 的 
估计 平滑 文档 语言 模型 ， 可 以 产生 重大 的 并 且 一 致 的 好 处 。 然 而 在 实际 中 ， 产 生 灸 的 代价 意 
味 着 它 在 实际 的 搜索 应 用 足 天 法 作为 排序 算法 的 一 部 分 使 用 。 然 而 ， 近 来 人 们 使 用 查询 相关 
HIRA (query-specific clusteriiig) 得 到 了 不 错 的 结果 ， 其 中 只 对 排序 最 靠 前 的 〈 如 50 个 ) X 
PETRA (Liu & Croft, 2008; Kurland, 2008) 。 这 些 秒 可 以 被 用 于 基于 钞 的 检索 或 者 文档 的 
平 潜 。 很 明显 ， 这 种 方法 的 效率 要 高 得 多 。 
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但 是 ， 它 的 内 容 很 难 ， 需 要 一 定 水 平 的 数学 基础 才能 深入 理解 。 此 外 ，Joachims (2002a) 这 
本 书 很 全 面 地 介绍 了 SVM 在 文本 分 类 中 的 各 种 用 法 。 

van Rijsbergen (1979) 回顾 了 诊 类 应 用 于 信息 检索 领域 的 早期 研究 ， 同 时 介绍 了 矮 假 设 
AAT RHR. Diaz (2005) 提出 了 乌 假 设 的 另 一 种 解释 ， 他 假设 给 定 相同 查询 ， 紧 密 相 
关 的 文档 应 该 得 到 相似 的 分 值 。 基 于 这 个 假设 ，Diaz 给 出 一 个 使 用 K 近 邻 复 平滑 检索 分 值 的 杠 
架 。Liu 和 Croft (2004) 使 用 区 均值 诊 类 平 清 语 言 模型 ，Kurland 和 Lee (2004) 提出 另 一 种 基 
于 可 相互 重 亚 的 KK 近邻 簇 的 语言 模型 平滑 技术 。 

有 很 多 面向 文本 分 类 的 有 用 的 软件 包 可 以 获得 。Mallet 软 件 工 具 包 提供 了 很 多 机 器 学 习 算 
EME, BAER. BK. Boosting, Winnowfla HL (conditional random 
fields, CRF)。 它 也 对 文本 进行 解析 或 词素 切 分 提供 支持 ， 从 而 将 其 转化 为 特征 。 另 外 一 个 流 
行 的 软件 包 是 SVMLightS ， 它 实现 了 SVM， 支 持 本 章 中 介绍 过 的 所 有 核 函 数 。 很 多 包含 聚 类 
方法 的 软件 包 在 网 上 都 可 以 获取 。 


练习 


9.1 给 出 一 个 例子 ， 说 明 人 们 在 日 常生 锋 中 如 何 使 用 育 类 方法 。 他 们 在 表示 对 象 时 使 用 了 哪 
些 特 征 ? 采用 了 什么 相似 度 度量 方法 ? 他 们 如 何 评价 输出 ? 
9.2 假设 希望 使 用 一 个 极 细 和 粒度 的 本 体 做 分 类 ， 例 如 一 个 描绘 了 所 有 人 类 语言 的 本 体 。 ae 
在 训练 之 前 ， 决定 将 所 有 亚洲 语言 对 应 的 标签 车 换 成 “个 名 为 “亚洲 语言 ”的 标签 
论 一 下 这 个 决定 的 负面 影响 。 
9.3 假设 根据 如 下 公式 估计 Pldlo): 


Pldlo) = Dae 
其 中 Ms. 是 训练 数据 中 文档 4 分 配给 类 别 c 的 次 数 ，N. 是 训练 数据 中 分 配给 类 别 c 的 实例 数 。 
这 和 估计 P(c) 类 似 。 为 什么 这 种 估计 在 实际 中 不 可 用 ? 
94 对 于 某 个 分 类 数据 集 ， 使 用 多 重 伯 努 利和 多 项 式 模型 估计 所 有 词 w 的 P(wlc)。 比 较 多 重 伯 
努 利 模型 和 多 项 式 模型 的 估计 结果 。 他 们 有 哪些 不 同 ? 是 否 对 于 某 些 类 型 的 词 ， 它 们 的 
估计 差异 更 大 一 些 ? 


9.5 解释 为 什么 原始 SVM 公式 = argmax, bw 一 的 解 与 男 一 个 公式 w= argmin,, 5 lw fi 
等 价 ? 
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9.6 在 一 个 多 类 分 类 数据 集 上 ， 比 较 “ 一 对 所 有 ”和 “一 对 一 ”SVM 分 类 器 的 准确 率 。 从 效 
果 和 效率 的 角度 讨论 这 两 个 方法 的 不 同 。 

9.7 什么 条 件 下 微 平 均等 于 宏 平 均 ? 

98 使 用 五 种 诊 合 聚 类 方法 将 下 面 的 二 维 实例 集合 聚 成 三 类 ， 

(—4,—2), (-3,-2), (—2,—2), (-1,-2), (1,—1), (1,1), (2,3), (3.2), (3,4), (4,3) 

讨论 这 些 方法 的 结果 的 差异 。 哪 些 方法 得 到 相同 的 结果 ? 和 人 工 聚 类 过 程 相 比 ， 这 些 结 
果 有 何不 同 ? 

9.9 使 用 K 均 值 和 球面 & 均 值 对 练习 9.8 中 的 点 聚 类 ， 比 较 结果 有 何不 同 。 

9.10 近邻 得 不 对 称 ， 意 思 是 如 果 4 是 实例 四 的 近邻 之 一 ，B8 则 不 一 定 是 4 的 近邻 之 一 。 使 用 图 
解法 解释 这 种 情况 如 何 发 生 。 - 

911 一 个 文档 的 天 近邻 文档 可 以 表示 为 指向 这 些 文档 的 链接 。 描 述 在 搜索 引擎 中 使 用 这 种 表 
示 的 两 种 可 能 方法 。 

9.12 评价 指标 ClusterPrecision 可 能 为 0 吗 ? 如 果 是 ， 给 出 一 个 例子 。 如 果 不 是 ， 解 释 原 因 。 

9.13 使 用 图 9-18 中 的 两 种 方法 ， 在 CACM 数 据 机 上 测试 纂 假设 。 可 以 从 这 些 测试 中 得 到 什么 
结论 ? 


= a 
第 10 章 ”社会 化 搜索 
“你 将 被 同化 。” 
一 一 Borg Collective, 《星际 迷航 之 战斗 巡 还 》 
10.1 什么 是 社会 化 搜索 


本 章 将 介绍 社会 化 搜索 (social search) 。 社 会 化 搜索 正在 迅速 成 为 互联 网 上 关键 的 搜索 
模式 之 一 。 正 如 它 的 名 字 所 表达 的 ， 社 会 化 搜索 处 理 特定 社会 环境 内 的 搜索 。 这 可 以 被 定义 
为 一 种 环境 ， 社 区 (community) 的 用 户 在 其 中 积极 地 参与 搜索 过 程 。 如 果 非 常 宽泛 地 解释 社 
会 化 搜索 的 定义 ， 可 以 使 任何 具有 相关 活动 的 应 用 都 包含 进来 。 这 些 活 动 包括 ， 定 义 用 户 的 
描述 文件 和 兴趣 ， 用 户 间 的 交互 以 及 修正 被 搜索 对 象 的 表示 等 。 在 标准 的 搜索 模式 和 模型 中 ， 
所 有 用 户 被 等 同 看 待 ， 重 构 查 询 的 交互 方式 受 限 。 与 其 形成 鲜明 对 比 的 是 ， 在 社会 化 搜索 中 ， 
用 户 充当 了 更 活跃 的 角色 ，。 

用 户 彼 此 之 间 可 以 通过 多 种 方式 进行 在 线 交 互 。 例 如 ， 用 户 可 以 访问 社会 媒体 站 点 8， 
这 种 形式 近来 获得 了 很 大 的 人 气 。 其 中 具有 代表 性 的 站 点 包括 Digg (网 站 )、Twitter CRA 
息 )、Flickr (图 片 )、YouTube (视频 )、Del.icio.us (书签 )、CiteULike (科研 论文 )。 社 交 网 
络 站 点 ， 如 MySpace、Facebook 和 LinkedIn 等 。 这 些 站 点 允许 朋友 、 同 事 以 及 具有 相似 兴趣 的 
人 ， 通 过 多 种 方式 进行 交互 。 和 更 传统 的 在 线 社会 化 交互 方式 包括 电子 邮件 、 即 时 通信 、 大 型 
多 人 在 线 游戏 及 论坛 、 博 客 等 。 

正如 我 们 所 看 到 的 ， 网 络 世 界 是 非常 社会 化 的 环境 ， 包 含 形 式 多 样 的 用 户 交 互 。 社 会 互 
动 为 搜索 系统 提供 了 全 新 而 独特 的 数据 资源 ， 同 时 也 有 无 数 的 隐私 问题 。 在 第 7 章 描 述 的 网 页 
搜索 方法 ， 大 多 仅仅 考虑 文档 特征 或 网 络 的 链接 结构 。 而 在 社会 化 信息 丰富 的 环境 中 ， 大 量 
的 用 户 交 互信 息 有 助 于 以 新 颖 、 有 趣 的 方式 增强 用 户 体验 。 

或 许 能 够 用 整 本 书 讲 述 社 会 化 交互 以 及 如 何在 其 中 搜索 。 本 章 强 调 的 是 从 搜索 引擎 和 信 
息 检 索 的 角度 描述 社会 化 搜索 在 某 些 方面 的 特点 。 

本 章 讲 述 的 第 一 个 话题 为 用 户 标 签 (user tag)。 许 多 社会 媒体 站 点 允许 用 户 添加 标签 。 例 
如 ， 视 频 共 享 网 站 允许 用 户 不 仅 可 以 给 自己 的 视频 而 且 还 可 以 给 其 他 用 户 创建 的 视频 指定 标 
签 。 例 如 ， 一 个 水 下 视频 可 以 有 “swimming”、“underwater”、“tropic”、“fish” 等 标签 。 有 
些 站 点 允许 多 词 标签 ， 如 “tropical fish”， 其 他 站 点 则 仅 允 许 单个 词 的 标签 。 正 如 即将 介绍 的 ， 
用 户 标 签 是 一 种 人 工 索 引 (manual indexing) 形式 , WA (item) 的 内 容 通过 人 工 添加 的 词 项 
表示 。 许 多 有 趣 的 搜索 任务 与 用 户 标签 相关 ， 如 利用 标签 搜索 项 目 、 自 动 标签 推荐 及 标签 集 
合 的 可 视 化 等 。 

第 二 个 话题 为 社区 内 搜索 (searching within communities)， 将 描述 在 线 社区 以 及 用 户 如 
何在 其 中 搜索 。 在 线 社区 是 指 分 享 共同 兴趣 的 用 户 形 成 的 虚拟 的 用 户 群 组 及 在 线 环境 下 多 样 


日、 社会 媒体 站 点 普遍 指 的 是 Web 2.0， 与 传统 的 仅 包含 非 交互 式 的 HTML 文 档 的 Web1.0 相 对 应 。 
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的 社会 交互 。 例 如 ， 一 个 喜欢 户外 运动 及 摄影 的 体育 迷 ， 可 能 是 关于 棒球 、 徒 步 旅行 或 是 数 
码 相机 社区 的 成 员 。 社 区 内 的 交互 方式 既 有 被 动 式 的 〈 阅 读 网 页 ) 也 有 主动 式 的 (博客 或 论 
坛 写作 )。 社 区 是 虚拟 的 也 是 临时 的 ， 这 意味 着 加 入 社区 不 必 通 过 某 些 正式 机 制 ， 因 此 人 们 是 
隐 式 的 而 非 显 式 的 社区 成 员 。 所 以 ， 对 一 些 与 搜索 相关 的 任务 ， 自 动 地 确定 在 线 环 境 中 存在 
哪些 社区 以 及 用 户 是 哪些 社区 的 成 员 ， 是 十 分 有 价值 的 。 其 中 要 描述 的 一 个 任务 是 基于 社区 
的 问答 ， 在 这 里 ， 用 户 向 在 线 系统 提交 一 个 问题 ， 其 所 在 社区 的 成 员 或 者 与 其 问题 最 相关 的 
社区 会 提供 答案 。 这 种 搜索 任务 比 标准 的 网 络 搜索 更 具 社会 性 、 交 互 性 和 针对 性 。 

接 下 来 的 话题 是 过 滤 (filtering) 和 推荐 系统 (recommender system) 。 似 乎 关于 社会 化 搜 
索 的 章节 不 应 包括 这 些 内 容 ， 因 为 它们 并 不 是 典型 的 “Web 2.0” 应 用 。 然 而 ， 这 两 种 类 型 的 
系统 都 基于 对 单个 用 户 的 表示 ， 称 为 描述 文件 (profile) ， 因 此 也 符合 社会 化 搜索 的 宽泛 定义 。 
两 种 系统 也 都 结合 了 文档 检索 和 文本 分 类 。 在 典型 的 搜索 任务 中 ， 系 统 根据 不 同 的 查询 返回 
文档 。 通 常情 况 下 ， 查 询 对 应 短期 的 信息 需求 。 在 过 滤 中 ， 有 一 个 代表 长 期 信息 需求 的 固定 
查询 〈 描 述 文件 ) 。 搜 索 系 统 监测 新 进入 的 文档 ， 并 从 中 检索 与 信息 需求 相关 的 文档 。 许 多 在 
线 新 闻 网 站 提供 了 文档 过 滤 的 功能 。 例 如 ，CNN 提 供 一 种 提醒 服务 ， 人 允许 用 户 指定 不 同 的 兴 
趣 话 题 ， 如 “tropical storms”， 或 更 一 般 的 话题 ， 如 “体育 ”或 “政治 " 。 当 一 个 新 的 报道 符 
合用 户 的 描述 文件 时 ， 系 统 会 以 一 定 方式 提醒 用 户 ， 如 电子 邮件 。 通 过 这 种 方式 ， 用 户 不 需 
要 持续 地 搜索 感 兴趣 的 文章 ， 而 是 由 系统 负责 发 现 符合 用 户 长 期 信息 需求 的 相关 文档 。 推 荐 
系统 与 文档 过 滤 系 统 相似 ， 区 别 在 于 其 目的 是 预测 用 户 如 何 对 一 个 项 目 进行 评分 而 不 是 检索 
相关 文档 。 例 如 ，Amazon.com 采 用 的 推荐 系统 试图 预测 用 户 对 某 些 项 目的 喜欢 程度 ， 如 书籍 、 
电影 或 音乐 。 推 荐 系统 也 采用 社会 化 搜索 算法 ， 因 为 预测 都 是 基于 相似 用 户 的 评分 ， 从 而 隐 
式 地 将 用 户 与 具有 相关 兴趣 的 用 户 社区 联系 起 来 。 

本 章 最 后 介绍 的 两 个 话题 ，P2P (peer-to-peer) 搜索 和 元 搜索 ， 则 是 处 理 社会 化 搜索 的 体 
系 结构 。P2P 搜 索 针 对 给 定 的 信息 需求 向 “节点 ”社区 进行 查询 。 节 点 可 以 是 单个 用 户 、 组 织 
机 构 或 搜索 引擎 。 用 户 递交 的 查询 会 在 P2P 网 络 中 传递 ， 并 在 其 中 一 个 或 多 个 节点 上 运行 ， 然 
后 将 结果 返回 。 这 种 类 型 的 搜索 可 以 完全 分 布 在 大 规模 的 网 络 节点 上 。 元 搜索 是 一 种 特殊 的 
P2P 搜 索 ， 所 有 的 节点 都 是 搜索 引擎 。 元 搜索 在 一 定数 量 的 搜索 引擎 上 执行 查询 、 收 集结 果 并 
将 结果 融合 ， 其 目的 在 于 提供 比 单个 搜索 引擎 更 好 的 覆盖 率 和 准确 率 。 

最 后 要 指出 的 是 ， 个 性 化 是 另 一 个 可 以 被 视 为 社会 化 搜索 组 成 部 分 的 领域 ， 因 为 它 涉及 
了 一 系列 利用 用 户 个 体 的 偏好 和 兴趣 的 表示 来 改善 搜索 质量 的 技术 。 其 中 大 部 分 技术 都 是 为 
查询 提供 上 下 文 信息 ， 在 6.2.5 节 已 经 作为 查询 优化 的 一 部 分 进行 了 讨论 。 


10.2 用 户 标 签 和 人 工 索引 


在 图 书馆 电子 搜索 系统 出 现 之 前 ， 客 户 (patrons) 借助 卡片 目录 查找 书籍 。 正 如 名 字 所 
暗示 的 ， 卡 片 目录 是 大 的 卡片 集合 。 每 个 卡片 包括 关于 特定 作者 、 题 目 或 主题 的 信息 。 对 有 具 
体 的 作者 、 题 目 或 主题 感 兴趣 的 读者 ， 可 以 到 适当 的 目录 下 党 试 找 到 描述 相关 书籍 的 卡片 。 
因此 ， 卡 片 目录 的 作用 类 似 于 图 书馆 中 的 信息 索引 。 

在 计算 机 来 做 这 些 工 作 之 前 ， 卡 片 目 录 长 时 间 存在 ， 这 意味 着 这 些 卡 片 都 是 人 工 创 建 的 。 
对 于 指定 书籍 ， 需 要 从 中 提取 出 作者 、 标 题 和 主题 等 信息 来 构建 各 种 目录 。 这 个 过 程 称 为 人 
工 索引 (manual indexing)。 对 于 当前 巨大 的 数字 媒体 集合 ， 人 工 索引 是 不 现实 的 ， 因 此 搜索 
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引擎 采取 自动 索引 (automatic indexing) 技术 ， 在 构建 索引 的 过 程 中 将 标识 符 〈 词 、 短 语 、 
特征 等 ) 指派 给 文档 。 既 然 这 一 过 程 是 自动 的 ， 索 引 的 质量 与 准确 性 可 能 都 大 大 低 于 人 工 索 
引 。 然 而 ， 自 动 索 引 的 优势 在 于 它 是 彻底 的 (exhaustive)， 在 这 个 意义 上 ， 文档 中 的 每 个 词 
都 被 索引 而 没有 遗漏 ， 并 且 是 一 致 的 (consistent)。 而 人 在 索引 的 时 候 ， 会 出 现 错误 或 对 如 何 
索引 存在 一 定 的 偏差 。 对 人 工 索 引 和 自动 索引 进行 比较 的 搜索 评价 发 现 ， 自 动 索 引 至 少 和 人 
工 索引 一 样 有 效 ， 且 经 常 远 远 优 于 人 工 索引 。 这 些 研究 同时 指出 ， 两 种 索引 方式 是 彼此 互补 
的 ， 而 且 在 多 数 有 效 的 搜索 中 ， 两 种 方式 都 被 结合 使 用 。 

作为 人 工 索 引 (图 书馆 目录 ) 和 自动 索引 (搜索 引擎 ) 的 一 种 折 中 ， 社 会 媒体 站 点 为 用 
户 提供 人 工 标注 项 目的 机 会 。 典 型 的 标签 是 描述 该 项 目的 一 个 单词 。 例 如 ， 一 张 老虎 的 图 片 
可 以 被 指派 标签 “tiger”、“zoo”、“big”、“cat”。 由 于 由 用 户 指 派 标 签 ， 一些 项 目 被 标注 ， 其 
他 的 则 没有 被 标注 。 为 了 使 每 一 项 目 都 可 以 被 搜索 ， 可 以 自动 索引 所 有 项 目 。 因 此 某 些 项 目 
既 包 插 自 动产 生 的 标识 符 也 包括 人 工 添加 的 标识 符 。 正 如 我 们 将 会 在 本 节 后 面 介绍 的 ， 这 给 
检索 模型 和 相关 排序 函数 带 来 独特 的 挑战 。 

社会 媒体 标注 与 卡片 目录 生成 一 样 ， 称 为 人 工 标注 (manual tagging)。 这 种 命名 冲突 是 
不 幸 的 ， 因 为 这 两 种 索引 方式 实际 上 是 非常 不 同 的 。 卡 片 目录 由 专家 人 工 生 成 ， 这 些 专家 从 
后 控 词 表 (controlled vocabulary) (固定 本 体 ) 中 选取 关键 字 、 类 别 及 其 他 描述 。 这 确保 获得 
的 描述 是 相对 标准 的 。 与 之 相 比 ， 任 意 用 户 都 可 进行 社会 媒体 标注 ， 这 些 用 户 未 必 都 是 专家 ， 
因此 用 户 标 签 的 质量 几乎 是 不 可 控 的 。 不 仅 如 此 ， 并 没有 固定 的 词 表 提 供给 用 户 , 令 用 户 从 
中 选择 标签 。 用 户 标签 自身 形成 对 某 一 领域 中 重要 概念 和 关系 的 描述 。 用 户 生 成 的 本 体 (或 
分 类 体系 ) 称 为 大 众 分 类 (folksonomy), Rk., 大众 分 类 可 以 解释 为 动态 的 、 受 社区 影响 的 
本 体 。 

已 有 很 多 研究 或 兴趣 致力 于 开发 一 种 语义 标注 的 网 络 版 本 ， 通 常 称 为 语义 网 (semantic 
web)。 语 义 网 的 目的 在 于 从 语义 层次 标注 网 页 的 内 容 ， 从 而 能 够 更 容易 地 查找 、 组 织 和 共享 
信息 。 例 如 ,一 篇 新 闻 文章 可 以 用 元 数据 进行 标注 ， 如 标题 、 主 题 、 描 述 、 出 版 商 、 日 期 和 
语言 等 。 然 而 ， 为 使 语义 网 能 够 实现 并 明显 提高 相关 性 ， 必 须 在 大 规模 网 页 上 持续 地 开发 和 
使 用 标准 化 的 、 固 定 的 元 数据 标签 本 体 。 与 基于 灵活 的 、 用 户 驱动 的 大 众 分 类 的 社会 媒体 站 
点 日 益 普及 相 比 ， 基 于 严格 的 、 预 先 定义 本 体 的 语义 网 的 数量 则 少 得 多 。 看 起 来 用 户 对 使 用 
相对 限制 较 少 的 标签 集合 来 对 数据 进行 标注 的 方式 持 更 开放 的 态度 。 这 些 标签 集合 对 用 户 来 
说 是 有 意义 的 ， 而 且 反 映 具 体 的 应 用 情况 。 

既然 允许 用 户 使 用 任何 喜欢 的 方式 去 标注 项 目 ， 因 此 存在 许多 不 同 的 标签 类 型 。 例 如 ， 
Golder 和 Huberman (2006) 描述 了 标签 的 不 同 分 类 。Z. Xu 等 (2006) 提出 了 简化 的 五 种 标 
签 分 类 ， 包括、 

1) 基于 内 容 的 标签 。 这 类 标签 描述 项 目的 内 容 。 例 如 :“car”、“woman” 和 “sky”。 

2) 基于 上 下 文 的 标签 。 这 类 标签 描述 一 个 项 目的 上 下 文 。 例 如 :“New York City” w 
“Empire State Building” , 

3) 属性 标签 。 这 类 标签 隐 含 项 目的 属性 。 如 “Nikon” (相机 的 类 型 )、“black and white” 
(电影 的 类 型 ) 或 者 “homepage”( 网 页 的 类 型 )。 . 

4) 主观 标签 。 这 类 标签 主观 地 描述 一 个 项 目 。 如 : “pretty”, “amazing” #1 “awesome”, 

5) 组 织 标签 。 这 类 标签 能 够 帮助 组 织 项 目 。 例 如 :“todo”.“my pictures” #1 “readme”, 
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正如 所 见 ， 标 签 可 以 应 用 到 不 同类 型 的 项 目 上 ， 从 网 页 到 视频 。 利 用 标签 可 以 达到 许多 
不 同 的 目的 ， 而 不 仅仅 是 标注 内 容 。 因 此 ， 标 签 和 在 线 协同 标注 环境 对 用 户 搜索 、 组 织 、 共 
享 和 发 现 新 信息 是 非常 有 用 的 工具 。 标 签 可 能 会 长 期 存在 ， 鞭 至 在 未 来 会 有 更 广泛 的 应 用 。 
对 现在 来 说 ， 理 解 标签 周边 的 问题 以 及 搜索 引擎 如 何 利用 标签 是 非常 重要 的 。 

在 本 节 的 后 续 部 分 ， 将 会 介绍 如 何 利用 标签 来 进行 搜索 ， 如 何 通 过 已 有 的 标签 为 指定 项 
目 预 测 新 标签 ， 以 及 如 何 将 标签 集合 可 视 化 以 呈现 给 用 户 。 
10.2.1 搜索 标签 

既然 这 是 一 本 关于 搜索 引擎 的 书 ， 下 面 要 讨论 的 第 一 个 与 标签 相关 的 任务 即 是 在 协同 标 
注 的 项 目 集合 中 进行 搜索 。 标 签 的 一 个 独特 性 质 是 基本 上 是 文本 关键 词 ， 这 些 关 键 词 用 来 描 
述 文本 或 非 文本 项 目 。 因 此 ， 标 签 可 以 为 无 法 显 式 表 示 为 文本 的 项 目 ， 如 图 片 、 视 频 等 ， 提 
供 一 种 文本 维度 。 这 些 非 文本 项 目的 文本 表示 对 搜索 是 非常 有 用 的 。 可 以 应 用 许多 第 7 章 叙 述 
的 检索 策略 来 解决 这 一 问题 。 除 了 在 标注 的 集合 中 搜索 可 以 转化 为 文本 搜索 这 一 事实 外 ， 标 
签 面临 着 在 处 理 标 准 文档 检索 或 网 页 检索 时 没有 出 现 过 的 某 些 挑 战 。 l 
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的 表示 方式 。 搜 索 标 注 的 项 目 集合 最 简单 的 方法 可 能 是 布尔 检索 模型 。 例 如 ， 给 定 查询 “fish 
bowl”， 可 以 构造 查询 “fish AND bowl”， 系 统 将 仅 返 回 始 包括 “fish” 又 包括 “bowl” 的 项 
目 。 或 者 可 以 构造 查询 “fish OR bowl”， 系 统 将 返回 或 者 被 标注 为 “fish” 或 者 被 标注 为 
“bowl” 的 项 目 。 合 取 (AND) 查询 可 能 产生 高 质量 的 结果 ， 但 是 会 损失 许多 相关 项 目 ， 所 以 
这 种 方法 会 导致 高 准确 率 但 是 召回 率 低 。 在 另 一 方面 ， 析 取 (OR) 查询 将 会 匹配 更 多 的 相关 
项 目 ， 但 是 会 以 牺牲 准确 率 为 代价 。 


f. ipms - 
Huge educational aquarium site for tropical fish hobbyists, promoting 
responsible fish keeping internationally since 1997. 


The Krib ( ia and Tropical Fish) 
This site contains information about tropical fish aquariums, including 
archived usenet postings and e-mail discussions, along with new ... 


Keeping Tropical Fish and Goldfish in Aquariums, Fish Bowls, and 
Keeping Tropical Fish and Goldfish in Aquariums, Fish Bowls, and 
Ponds at AquariumFish.net. 








. P(w | “tropical fish” ) 
图 10-1 利用 搜索 结果 丰富 标签 表示 。 在 这 个 例子 中 ， 被 扩展 的 标签 为 “tropical fish”, + 
“tropical fish” 作为 查询 在 搜索 引擎 搜索 ， 利 用 返回 的 页 面 摘要 生成 相关 词 项 的 分 布 


当然 ， 高 精确 率 与 高 召回 率 都 是 需要 的 ， 然 而 要 做 到 这 点 却 是 很 大 的 挑战 。 考 虑 查询 
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“aquariums” 和 一 幅 被 标注 为 “tropical fish” 与 “goldfish” 的 鱼缸 图 片 。 多 数 检 索 横 型 ， 包 
括 布尔 检索 ， 无 法 找到 这 幅 图 片 ， 因 为 查询 关键 词 与 标签 关键 词 之 间 没 有 重 登 。 这 一 问题 在 
第 6 章 关 于 广告 的 内 容 中 ， 被 描述 为 词 表 不 匹配 (vocabulary mismatch) 问题 。 有 很 多 方法 试 
图 克服 这 一 问题 ， 简 单 的 方法 如 提取 词 干 。 还 有 方法 试图 通过 伪 相 关 反 馈 § 丰 富 稀疏 标签 (或 
查询 ) 的 表示 。 图 10-1 示 范 了 如 何 利用 网 页 搜索 结果 来 丰富 标签 的 表示 。 在 这 个 例子 中 ， 标 
签 “tropical fish” 作 为 一 个 查询 在 搜索 引擎 中 检索 。 返 回 的 页 面 摘要 (snippet) 使 用 7.3.2 节 
中 任何 一 种 标准 的 伪 相 关 反馈 技术 进行 处 理 ， 如 相关 性 模型 ， 该 模型 形成 相关 词 项 分 布 。 在 
TAH, “fish”, “tropical”, “aquariums”, “goldfish” #1 “bowl” 在 该 模型 中 具有 最 高 
的 概率 。 查 询 也 可 以 以 这 种 方式 进行 扩展 。 搜 索 时 可 以 使 用 扩展 的 查询 和 /或 标签 的 表示 ， 以 
达到 较 高 的 准确 率 与 召回 率 。 

第 二 个 挑战 是 标签 含有 内 在 的 噪声 。 正 如 前 文 所 述 ， 标 签 可 以 提供 关于 项 目的 有 用 信息 
并 提高 搜索 的 质量 。 然 而 ， 由 于 是 由 用 户 创建 的 ， 这 些 标 签 可 能 是 偏离 主题 的 、 不 适当 的 、 
拼写 错误 的 其 至 是 垃圾 信息 。 因 此 给 予 适 当 的 奖励 以 使 用 户 提 交 高 质量 的 标签 是 非常 重要 的 。 
例如 ， 可 以 允许 用 户 报 告 不 恰当 的 或 垃圾 标签 ， 从 而 减少 生成 的 垃圾 标签 。 如 果 用 户 能 在 一 
段 时 间 内 输入 一 定数 量 的 ( 非 垃 圾 ) 标签 ， 甚 至 可 以 令 他 们 升级 或 给 予 其 更 高 的 权限 。 激 励 
策略 可 以 促进 产生 更 多 标签 ， 进 而 提高 标签 质量 与 覆盖 率 。 

最 后 的 挑战 是 ， 指 定 集合 中 的 很 多 项 目 并 没有 被 标注 ， 这 使 得 对 于 基于 文本 的 搜索 系统 
来 说 ， 这 些 项 目 是 不 可 见 的 。 对 于 这 些 项 目 ， 自 动 地 预测 缺失 标签 并 使 用 预测 的 标签 提高 搜 
索 的 召回 率 ， 是 非常 有 价值 的 ， 这 个 问题 将 在 下 一 节 深 入 探讨 。 

10.2.2 推测 缺失 的 标签 

如 前 文 所 述 ， 没 有 标签 的 实体 对 搜索 系统 提出 了 挑战 。 对 于 许多 与 标签 相关 的 搜索 任务 ， 
准确 率 显然 非常 重要 ,但 是 在 某 些 情况 下 ， 召 回 率 同等 重要 。 在 这 种 情况 下 ， 为 那些 没有 人 
工 指派 标签 的 项 目 自动 推测 标签 ， 是 十 分 重要 的 。 

首先 考虑 集合 中 的 项 目 都 是 文本 的 情况 ， 如 书籍 、 报 纸 、 科 研 论文 和 网 页 等 。 在 这 种 情 
襄 下 ， 可 以 仅仅 依靠 项 目的 文本 表示 来 推测 标签 。 一 个 简单 的 方法 是 ， 对 出 现在 文本 中 的 每 
一 个 词 项 计算 权 值 ， 然 后 选择 K 个 权 值 最 高 的 词 项 作为 预测 的 标签 。 有 许多 评价 词 项 重要 性 的 
方法 ， 包 括 基于 tt.idf 的 权 值 估 计 ， 如 下 面 的 公式 所 示 : 

wi(w) = log(f, p +1) lo 2- 
AS, 为 词 项 w 出 现在 项 目 刀 中 的 次 数 ，N 为 项 目 总 数 ，df, 为 包含 词 项 w 的 项 目 数 目 。 其 他 
词 项 重要 性 评价 方法 可 能 考虑 文档 的 结构 。 例 如 ， 出 现在 项 目标 题 中 的 词 项 会 被 赋予 更 高 的 
权 值 。 

标签 推测 问题 也 视 为 分 类 问题 ， 如 Heymann、Ramage 和 Garcia-Molina (2008) 最 近 提出 
的 方法 。 给 定 标签 的 固定 本 体 或 大 众 分 类 ， 目 标 是 为 每 一 个 标签 训练 出 一 个 二 元 分 类 器 。 分 
类 器 以 一 个 项 目 作为 输入 ， 并 推测 相关 的 标签 是 否 应 当 指 派 给 该 项 目 。 这 种 方法 需要 为 每 一 
个 标签 训练 一 个 分 类 器 ， 这 可 能 是 繁重 的 任务 并 需要 大 量 的 训练 数据 。 然 而 幸运 的 是 ， 针 对 
这 个 任务 的 训练 数据 近 平 是 唾 手 可 得 的 ， 因 为 用 户 在 持续 地 人 工 标 注 项 目 。 所 以 可 以 使 用 所 
有 已 有 的 标签 /项 目 对 作为 训练 数据 来 训练 分 类 器 。Heymann 等 使 用 SVM 分 类 器 来 推测 网 页 标 
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签 。 他 们 计算 了 一 些 列 特征 包括 网 页 文本 和 锚 文 本 中 词 项 的 ff.idf 值 ， 以 及 一 些 基 于 链接 的 特 
征 。 实 验 结果 表明 ， 仅 通过 文本 特征 即 可 获得 高 准确 率 和 高 召回 率 ， 尤 其 是 那些 在 集合 中 出 
现 多 次 的 标签 。 简 单 的 分 类 方法 可 以 应 用 于 其 他 类 型 的 项 目 上 ， 如 图 片 或 视频 。 处 理 非 文本 
项 目的 挑战 ， 是 从 项 目 中 提取 有 用 的 特征 。 

已 经 介绍 的 推测 缺失 标签 的 两 种 方法 ， 在 为 项 目 选 择 标签 时 ， 不 考虑 已 经 指派 的 标签 。 
这 导致 指派 给 某 些 项 目的 标签 虽然 相关 但 非常 元 余 。 例 如 ， 一 幅 儿 童 图 片 可 能 有 以 下 标签 : 
“child”, “children”, “kid”, “kids”, “boy”, “boys”, “girl”, “girls” 和 人 等。 所 有 这 些 标签 都 
是 相关 的 ， 但 显然 也 是 十 分 元 余 的 。 因 此 ， 选 择 既 相关 又 不 元 余 的 标签 是 非常 重要 的 。 这 称 
为 新 颖 性 (novelty) 问题 。 

Carbonell 和 Goldstein (1998) 提出 了 最 大 边缘 相关 (Maximal Marginal Relevance, 
MMR) 技术 ,阐述 了 如 何 选 择 一 组 多 样 的 项 目 这 一 问题 。MMR 选 择 标签 时 ， 标 签 之 间 不 是 
彼此 独立 ， 而 是 迭代 地 选择 标签 ， 一 次 为 项 目 添加 一 个 标签 。 给 定 一 个 项 目 i 及 相应 的 标签 集 
合 T,，MMR 技 术 选 择 下 一 个 标签 震 ， 最 大 化 下 面 的 公式 : 


MMR(; T)= (Asien i- (1- A)max Sim, (t;, D) 


其 中 Simiemn 是 度量 标签 1 与 项 目 i 相 似 度 的 方程 〈 如 在 本 节 描 述 过 的 方法 ) Sima E EARE 
闻 的 相似 度 〈 如 在 10.2.1 池 中 叙述 的 方法 ) ， 而 和 ^ 为 可 调 系 数 ， 用 来 平衡 相关 性 (A=1) 与 新 颖 
性 (2=0)。 因 此 ， 与 项 目 非常 相关 而 与 任何 共 他 标签 不 相似 的 标签 获得 较 大 的 MMR 值 。 以 这 
种 方式 迭代 地 选择 标签 ， 可 以 消除 大 量 元 余 。 这 不 仅 在 将 预测 的 标签 展示 给 用 户 时 有 用 ， 从 
利用 预测 的 标签 进行 搜索 的 角度 ， 也 是 非常 有 用 的 ， 因 为 具有 多 样 性 的 标签 集合 进一步 提高 
了 召回 率 。 


10.2.3 浏览 和 标签 云 


如 前 文 所 述 ， 标 签 可 以 用 来 搜索 协作 标注 的 项 目 集合 。 标 签 也 可 以 用 来 帮助 用 户 在 一 个 
大 的 项 目 集 合 中 浏览 、 探 索 及 发 现 新 的 项 上 且 。 可 采取 几 种 不 同 的 方式 利用 标签 帮助 浏览 。 例 
如 ， 当 用 户 正在 关注 特定 的 项 目 时 ， 这 个 项 目的 所 有 标签 都 被 显示 。 这 时 ， 用 户 可 能 会 点 击 
其 中 一 个 标签 ， 接 着 一 组 被 标注 有 该 标签 的 项 目 集 合 呈 现 给 用 户 。 用 户 可 能 不 断 重 复 这 一 过 
程 ， 不 断 地 选择 一 个 项 目 ， 点 击 其 中 一 个 标签 。 这 使 得 用 户 可 以 通过 一 个 相关 标签 链 来 浏览 
项 目 集合 中 的 项 目 。 

这 种 浏览 行为 非常 有 针对 性 ， 而 且 不 会 使 用 户 浏览 集合 中 很 大 一 部 分 项 目 。 例 如 ， 如 果 
一 个 用 户 由 一 个 关于 “tropical fish” 的 图 片 开 始 ， 用 户 需要 多 次 点 击 才 有 可 能 到 达 一 幅 关 于 
一 本 信息 检索 书籍 的 图 片 。 当 然 ， 这 是 可 取 的 ， 尤 其 是 当 用 户 仅仅 对 与 “tropical fish” 密 切 
相关 的 项 目 感 兴趣 时 。 

一 种 将 对 于 整个 集合 的 全 局 视图 提供 给 用 户 的 方法 是 ， 让 其 看 到 最 流行 的 标签 。 这 些 标 
签 可 能 是 整个 站 点 或 者 某 个 特别 的 群 组 ， 或 者 是 某 类 项 上 且 中 最 流行 的 标签 。 标 签 的 流行 度 可 
以 通过 许多 不 同方 法 进行 度量 ， 但 是 最 常用 的 方法 是 ， 计 算 标 签 指派 给 某 些 项 目的 次 数 。 显 
示 流 行 度 的 标签 可 以 使 用 户 以 其 中 一 个 标签 为 起 点 浏览 和 探索 项 目 集合 。 
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图 10-2 标签 云 的 加 权 列 表 形 式 举例 。 标 签 按 照 字母 表 顺 序 ， 权 值 计算 按照 某 种 标准 ， 如 流行 度 


SIAR AIL, 已 经 描述 了 利用 标签 帮助 用 户 浏览 的 方法 。 对 于 浏览 ， 最 重要 的 方面 之 一 
是 ， 以 一 种 形象 的 并 且 有 意义 的 方式 将 一 组 标签 显示 给 用 户 。 例 如 ， 考 虑 呈现 50 个 最 流行 的 
标签 给 用 户 。 最 简单 的 方法 即 是 按照 字母 序列 或 流行 度 的 排序 ， 以 列表 或 表格 的 方式 进行 显 
示 ， 这 种 方式 不 够 形象 化 且 不 利于 用 户 迅 速 观察 到 所 有 相关 的 信息 。 当 显示 标签 时 ， 按 照 字 
母 表 顺序 显示 标签 列表 是 有 用 的 ， 用 户 可 以 迅速 浏览 这 个 列表 或 找到 他 们 正在 寻找 的 标签 ， 
而 且 有 利于 描绘 标签 的 流行 度 或 重要 性 。 有 很 多 方式 可 以 使 这 些 信 息 形象 化 ， 其 中 应 用 最 广 
泛 的 技术 称 为 标签 云 〔tag cloud) 。 在 一 片 标签 云 中 ， 标 签 显 示 的 尺寸 与 它 的 流行 度 或 重要 性 
成 正比 。 标 签 可 能 以 随机 顺序 或 按照 字母 顺序 分 布 在 “ 云 ” 中 。 图 10-2 展 示 了 一 个 标签 云 的 
例子 ， 这 里 ， 标 签 按照 字母 顺序 排列 。 这 种 表示 也 称 作 加 权 列 表 。 基 于 这 种 标签 云 ， 用 户 可 
以 清楚 地 看 到 标签 “wedding”、“party” 和 “birthday” 都 是 非常 流行 的 。 因 此 ， 标 签 云 提供 
了 一 种 方便 、 形 象 的 方式 来 表示 一 组 标签 。 

10.3 社区 内 搜索 
10.3.1 什么 是 社区 

刚才 描述 的 协同 标注 的 环境 充满 了 隐 式 的 社会 交互 。 通 过 分 析 用 户 提交 和 搜索 的 标签 ， 
可 以 发 现 具 有 相关 兴趣 的 用 户 群 体 。 例 如 ， 冰 球 球迷 可 能 会 标注 他 们 喜爱 的 冰球 运动 员 的 图 
片 ， 标注 他 们 最 喜欢 的 冰球 网 页 ， 搜 索 和 冰球 相关 的 标签 等 。 标 签 只 是 利用 在 线 互 动 推测 实 
E (A) 之 间 关 系 的 实例 之 一 。 处 于 在 线 环 境 中 进行 交互 且 具 有 共同 的 目的 、 特 性 或 兴趣 的 
实体 群 组 ， 形 成 在 线 社 区 (online community)。 这 个 定义 与 传统 社区 的 定义 并 没有 本 质 区 别 。 
实际 上 ， 在 线 社区 和 传统 社区 非常 相似 ， 有 许多 相同 的 社会 形态 。 此 处 的 定义 与 传统 社区 的 
定义 的 主要 差异 是 ， 在 线 社区 可 以 由 用 户 、 组 织 、 网 页 或 任何 有 意义 的 在 线 实 体 构成 。 

回 到 标注 和 搜索 与 冰球 有 关 的 项 目的 例子 。 冰 球 球迷 形成 了 一 个 在 线 社区 ， 社 区 成 员 除 
了 标注 和 搜索 ， 还 参与 许多 其 他 活动 。 例 如 ， 他 们 会 发 布 内 容 到 博客 、 新 闻 组 和 其 他 的 论坛 。 
他 们 也 会 发 送 即 时 消息 或 电子 邮件 给 社区 内 的 其 他 成 员 ， 讨 论 有 关 冰 球 的 体验 。 其 至， 他 们 
还 可 以 通过 类 似 eBay 这 样 的 站 点 ， 在 线 购 买 或 销售 有 关 冰 球 的 物品 。 所 以 ， 一 个 用 户 可 以 有 
许多 方式 参与 到 社区 中 来 。 但 需要 注意 的 是 ， 用 户 的 社区 成 员 身 份 是 隐 式 的 。 另 一 点 需要 注 
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意 的 是 ， 用 户 往往 具有 多 种 爱好 和 兴趣 ， 可 能 是 多 个 在 线 社区 的 成 员 。 因 此 ， 为 了 提高 整体 
的 用 户 体验 ， 对 于 搜索 引擎 和 其 他 在 线 站 点 来 说 ， 自 动 地 确定 与 指定 与 用 户 关 联 的 社区 是 非 
常 有 用 的 。 

一 些 在 线 社区 不 仅仅 包括 人 。 例 如 ， 一 组 关于 相同 主题 的 网 页 形成 一 个 在 线 社 区 ， 经 常 
称 为 网 页 社区 (web community)。 这 些 页 面 由 于 具有 相似 的 特点 (例如 都 属于 同一 主题 ) 而 
形成 社区 。 既 然 网 页 是 由 人 创建 的 ， 网 页 社区 与 由 人 构成 的 社区 具有 很 多 相同 的 特点 。 自 动 
地 识别 网 页 社区 对 于 提高 检索 质量 也 是 十 分 有 益 的 。 

本 节余 下 部 分 从 搜索 引擎 的 角度 ， 讲 述 一 些 在 线 社 区 方面 的 内 容 。 首 先 ， 介 绍 一 些 自 动 
发 现在 线 社区 的 有 效 方法 ， 之 后 将 讨论 基于 社区 的 问答 ， 在 这 里 人 们 提出 问题 并 从 社区 的 其 
他 成 员 那 里 获得 答案 。 最 后 将 介绍 协同 式 搜索 ， 这 是 一 种 用 户 群 体 共同 搜索 的 搜索 模式 。 
10.3.2 社区 发 现 


下 面 将 介绍 的 第 一 个 任务 是 如 何 自动 地 发 现在 线 社 区 。 正 如 前 文 提 到 的 ， 在 线 社区 隐 式 
地 定义 为 一 组 具有 共同 特性 的 实体 及 它们 之 间 的 交互 。 这 个 定义 相当 模糊 ， 因 而 很 难 设计 出 
通用 算法 去 发 现 每 一 种 类 型 的 在 线 社区 。 相 反 ， 一 些 算法 已 被 开发 来 ,能 有 效 地 发 现 具有 特 
定性 质 的、 具体 类 型 的 社区 。 现 在 将 要 描述 这 些 算法 。 

用 于 社区 发 现 的 算法 多 数 以 一 组 实体 作为 输入 ， 如 用 户 或 者 网 页 ， 描述 这 些 实体 的 信息 
以 及 这 些 实体 交互 或 相互 关联 的 细节 。 这 可 以 由 图 方便 地 表示 。 在 图 中 ， 实 体 作为 节点 ， 实 
体 之 间 的 交互 (或 关系 ) 作为 边 。 图 既 可 以 是 有 向 图 也 可 以 是 无 向 图 。 有 向 图 中 的 边 具 有 方 
向 ， 稍 头 用 来 标识 边 的 起 点 和 终点 。 无 向 图 中 的 边 则 没有 方向 ， 箭 头 用 来 标识 起 点 和 终点 。 
有 向 图 适 于 描述 实体 间 的 非 对 称 或 因果 关系 ， 无 向 图 则 适 于 表示 对 称 关 系 或 简单 地 表明 两 个 
实体 具有 某 种 联系 。 

使 用 这 种 表示 方法 ， 很 容易 定义 从 图 中 发 现 社区 的 两 个 标准 。 一 是 这 组 实体 (节点 ) 之 
间 按 照 某 些 相 似 度 度量 必须 彼此 相似 。 二 是 这 组 实体 之 间 的 交互 要 多 于 与 其 他 实体 的 交互 。 
第 一 个 要 求 保证 这 些 实体 具有 共同 的 性 质 ， 第 二 个 要 求 保证 实体 之 间 以 有 意义 的 方式 进行 交 
互 ， 从 而 使 他 们 成 为 一 个 社区 ， 而 不 是 一 组 具有 相同 性 质 却 从 不 彼此 交互 的 用 户 群体 。 

这 里 描述 的 第 一 个 算法 是 HITS 算 法 ， 在 第 4 章 关 于 PageRank 部 分 曾 简要 介绍 。HITS 算 法 
和 PageRank 类 似 ， 区 别 在 于 HITS 是 依赖 于 查询 的 ， 而 PageRank 通 常 是 独立 于 查询 的 。 或 许 你 
想 知 道 ，HITS 是 如 何 处 理 社区 发 现 问题 的 ， 因 为 它 原本 是 用 来 改善 网 页 搜索 的 。 然 而 ， 无 论 
是 PageRank 还 是 HITS， 都 属于 一 族 通 用 、 有 效 的 算法 ， 即 链接 分 析 (link analysis) 算法 。 这 
些 算法 可 以 应 用 到 许多 不 同 的 类 型 ， 可 以 表示 为 有 向 图 的 数据 集 。 

给 定 一 个 实体 图 ， 必 须 识 别 出 一 个 实体 子 集 ， 该 子 集 内 节点 可 能 是 社区 成 员 。 我 们 称 这 
些 实体 为 候选 实体 (candidate entity ) 。 例 如 ， 如 果 和 希望 找到 一 个 关于 冰球 的 在 线 社 区 ， 必 须 
查询 图 中 的 每 个 节点 ， 并 且 找 到 所 有 对 冰球 感 兴 趣 的 节点 (用户 ) 。 这 可 以 通过 找到 系统 中 所 
有 曾经 搜索 过 任何 冰球 相关 信息 的 用 户 来 实现 。 这 满足 第 一 个 标准 ， 实 体 之 间 应 该 是 相似 的 。 
另 一 个 例子 是 找到 “fractal art” 网 页 社区 的 任务 。 这 里 ， 可 以 在 网 络 上 以 “fractal art” 作 为 
查询 ， 在 网 络 上 进行 搜索 ， 并 且 仅 考虑 匹配 该 查询 的 实体 (AG). 。 同 样 ， 这 也 保证 了 所 有 网 
页 之 间 是 主题 相似 的 。 第 一 步 找到 相似 的 实体 集合 ， 但 是 无 法 识别 在 社区 内 积极 参与 多 种 交 
互 方式 的 实体 ， 而 这 正 是 第 二 个 重要 的 标准 。 
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对 于 指定 的 候选 实体 ，HITS 算 法 可 以 用 来 发 现 社区 的 “核心 *。HITS 算 法 将 图 G 的 节点 集 
V 和 边 集 E 作 为 输入 。 为 了 发 现 社区 ， 节点 集 V 由 所 有 候选 实体 构成 ， 边 集 E 由 候选 实体 闻 所 有 
的 边 构 成 。 对 于 图 中 每 一 个 候选 实体 (节点 ) p，HITS 算 法 计算 其 权威 值 (authority score, 
4(p)) 和 中 心 值 (hub score, H(p)) 。 该 算法 基于 如 下 假设 ， 好 的 中 心 网 页 (hub) 指向 好 的 权 
威 网 页 (authority) ， 而 好 的 权威 网 页 被 好 的 中 心 网 页 链接 。 注 意 定义 中 的 循环 ， 这 意味 着 权 
威 值 依 赖 于 中 心 值 ， 而 中 心 值 又 依赖 于 权威 值 。 给 定 一 组 权威 值 和 中 心 值 ， ETTS 算 法 依据 下 
面 的 公式 来 更 新 权 值 : 

算法 3 HITS 


1: procedure HITS(G = (V, E), K) 
2: Ao(p) —1VpeV 


3 Holp) —1vp EV 

4 fori = 1 to K do 

5: A;i(p) — OVpEV 

6: ， Hi(p) + 0Vo EV 

7: Za 0 

8: ZH <0 

9: forp E€ V do 

10: forg € V do 
1}: if (p,q) € E then 
12: Hi(p) — Hi(p) + A;-1(4) 
13: ZH — Zy + Ai_1(g) 
14: end if 

15: - if (q, p) € E then 

16: Ai(p) — Ai(p) + Hi-1(9) 
17; ZA Za + Hila) 
18: end if 

19: end for 
20: end for 
21: for p E V do 

22: Ai(p) 一 442 

23: (po) — se 
24: end for 
25: end for. 


26: return Ag, Hk 
27: end procedure 


A(p) = X HA) 


ap 


H(p) = J) Aq) 


其 中 p 一 4 表示 实体 P (起 点 ) 与 实体 9 (终点 ) 之 间 的 边 。 如 等 式 所 示 ，4@) 是 所 有 指向 节点 P 
的 实体 的 中 心 值 之 和 ， 而 HCp) 是 所 有 p 指 向 的 实体 的 权威 值 之 和 。 所 以 ， 要 成 为 强 的 权威 网 页 ， 
必须 拥有 许多 具有 相对 适度 的 中 心 值 的 入 边 ， 或 者 具有 较 少 但 非常 大 的 中 心 值 的 人 边 。 类 似 
地 ， 要 成 为 好 的 中 心 网 页 ， 几 须 具有 许多 指向 较 小 权威 页 面 的 出 边 ， 或 者 指向 少数 但 拥有 较 
大 权威 值 的 网 页 的 出 边 。 
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iteration 1: Input iteration 1: Update Scores Iteration 1: Normalize Scores 


1,1 L1 3,0 


’ ， 
Iteration 2: Input tteration 2; Update Scores 





图 10.3 HITS 算 法 举例 。 每 一 行 对 应 算法 的 一 次 迭代 ， 每 一 列 对 应 算法 中 具体 的 步 


HITS 算 法 的 一 种 选 代 版 本 由 算 东 3 给 出 。 该 算法 首先 将 所 有 的 中 心 值 和 权威 值 都 初始 化 为 
1， 然 后 根据 刚才 介绍 的 方程 更 新 中 心 值 和 权威 值 。 接 下 来 ， 中 心 值 被 归 一 化 ， 以 使 所 有 中 心 
值 之 和 为 1。 采 取 相 同 的 过 程 更 新 权威 值 。 整 个 过 程 在 归 一 化 的 分 值 上 迁 代 固定 的 次 数 ， 记 为 
天 。 读 算法 可 以 保证 收敛 且 通 常 经 过 很 小 的 迭代 次 数 就 可 以 达到 收 伍 。 图 10-3 展 示 了 在 一 个 具 
有 7 个 节点 和 6 条 边 的 图 上 应 用 HITS 算 法 的 例子 。 算 法 进行 了 3 次 从 代 。 注 意 ， 具 有 许多 入 边 
的 节点 倾向 于 具有 较 高 的 权威 值 。HITS 算 法 的 另外 一 个 特点 是 ， 不 与 任何 节点 连接 的 节点 的 
中 心 值 和 权威 值 全 部 为 0。 

一 且 中 心 值 和 权威 值 被 计算 出 来 ， 实 体 将 按照 权威 值 进行 排序 。 该 列表 将 会 包括 社区 内 
最 具有 权威 性 的 实体 。 这 样 的 实体 有 可 能 成 为 “领袖 “， 或 形成 社区 的 “核心 ”， 这 将 取决 于 
他 们 与 社区 内 其 他 成 员 的 交互 情况 。 例 如 ， 如 果 算 法 应 用 于 计算 机 科学 读者 引用 图 ， 试 图 发 
现 其 中 的 信息 检索 研究 社区 ， 权 威 性 最 高 的 作者 将 是 那些 被 高 产 作 者 引用 很 多 次 的 人 ， 这 些 
是 该 领域 的 权威 ， 并 且 构 成 这 个 研究 社区 的 核心 。 当 应 用 于 网 络 图 来 发 现 网 页 社区 时 ， 算 法 
将 返回 那些 被 大 量 高 质量 网 页 指向 的 页 面 。 

聚 类 算法 ， 如 在 第 9 章 曾经 介绍 的 方法 ， 也 可 以 用 来 发 现在 线 社区 。 这 些 算法 很 容易 地 适 
应 这 类 问题 ， 因 为 社区 发 现 是 一 种 无 指导 学 习 问 题 。 自 底 向 上 的 层次 聚 类 和 天 均 值 附 类 都 可 以 
用 来 解决 社区 发 现 问题 。 两 种 讼 类 算法 都 需要 一 个 度量 类 间距 离 的 函数 。 正 如 在 第 9 章 讨论 过 
的 ， 欧 式 距 离 被 经 常 使 用 。 然 而 ， 如 何 用 欧 氏 距离 度量 图 〈《 有 向 图 或 无 向 图 ) 中 节点 间 的 距 
离 仍 不 明确 。 一 个 简单 的 方法 是 ， 将 图 中 的 每 一 个 节点 (实体) 表示 为 一 个 向 量 ， 这 个 向 量 
有 IVi 个 部 件 一 一 每 一 个 部 件 对 应 于 图 中 的 一 个 节点 。 对 某 一 节点 p， 如 果 p 一 9， 它 的 向 量 中 的 
部 件 g 设 置 为 1， 否 则 置 为 0。 这 样 做 的 结果 是 ， 每 一 个 节点 都 由 它 指向 的 节点 表示 。 图 10-4 展 
示 了 一 个 图 中 的 节点 如 何 按 照 这 种 方式 来 表示 。 每 一 个 向 量 可 以 被 归 一 化 ， 当 然 这 是 可 选 的 。 
利用 这 种 表示 方法 ， 就 可 以 使 用 欧式 距离 ， 从 而 直接 将 自 底 向 上 的 层次 诊 类 或 均值 府 类 应 用 
到 这 一 问题 上 来 。 根 据 欧 氏 距离 的 特点 ， 当 两 个 实体 的 边 指向 很 多 相同 的 实体 时 ， 它 们 之 间 
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的 相似 度 会 很 高 。 例 如 ， 回 到 发 现 信息 检索 研究 社区 的 问题 中 来 ， 如 果 两 个 作者 倾向 于 引用 
相同 的 作者 ， 他 们 之 间 可 以 被 认为 相似 。 信 息 检 索 研 究 社 区 中 的 大 多 数 成 员 都 会 倾向 于 引用 
许多 共同 的 作者 ， 尤 其 是 那些 利用 HITS 算 法 计算 被 赋予 较 高 权威 值 的 作者 们 。 这 个 假设 是 符 
合 实际 的 。 





节点 : 1 2 3 4 5 6 7 
0 0 1 0 1 0 0 
0 0 0 0 0 0 0 
0 0 0 0 0 0 0 
向 量 0 0 0 0 0 0 0 
0 0 1 0 0 0 0 
0 1 1 1 0 0 0 
0 0 0 0 0 o 0 


图 10-4 有 向 图 中 节点 表示 为 向 量 的 例子 。 对 指定 节点 p， 如 果 p 一 4， 它 的 向 量 中 的 部 件 4 设置 为 1 


评价 社区 发 现 算法 的 有 效 性 ， 一 般 比 评价 传统 的 聚 类 任务 更 困难 ， 这 是 因为 很 难 判断 一 
些 实体 是 否 属于 某 一 指定 的 社区 。 实 际 上 ， 即 使 人 工地 识别 在 线 社区 ， 也 会 产生 很 多 分 歧 ， 
这 是 由 于 社区 定义 的 模糊 性 。 因 此 ， 很 难说 HITS 算 法 或 者 自 底 向 上 的 层次 聚 类 哪 一 个 更 适合 
发 现 社区 。 最 佳 选 择 极 大 地 依赖 于 具体 的 任务 及 应 用 的 数据 集 。 

现在 ， 我们 已 经 看 到 了 几 种 自动 发 现在 线 社区 的 方法 ,或 许 你 想 知 道 这 些 信息 在 实际 应 
用 中 是 如 何 使 用 的 。 实 际 上 ， 在 社区 被 识别 之 后 ， 有 很 多 事情 可 以 做 。 例 如 ， 如 果 一 个 用 户 
已 经 被 识别 出 是 信息 检索 研究 社区 的 一 员 ， 那 么 当 用 户 访问 一 个 网 页 ， 满 足 用 户 具体 想 去 的 
目标 内 容 应 当 被 显示 。 搜 索引 擎 可 以 使 用 社区 信息 作为 额外 的 上 下 文 信息 ， 使 检索 结果 在 主 
题 上 与 用 户 关联 的 社区 相关 ， 进 而 提高 检索 结果 的 相关 性 。 在 线 社区 信息 也 可 以 应 用 到 其 他 
方面 ， 如 加 强 浏 览 体验 、 专 家 发 现 、 网 站 推荐 ， 甚 至 向 你 推荐 合适 的 约会 对 象 。 

10.3.3 基于 社区 的 问答 

上 一 节 介 绍 了 如 何 自动 发 现在 线 社区 ， 这 一 节 将 叙述 如 何 利用 社区 帮助 回答 传统 搜索 引 
区 难以 回答 的 复杂 的 信息 需求 。 例 如 ， 有 人 希望 了 解 他 正 服 用 的 一 种 药 与 他 经 常 喝 的 草药 茶 
是 否 会 发 生 反 应 。 他 可 以 使 用 搜索 引擎， 花费 很 长 时 间 ， 尝 试 多 种 查询 并 查看 检索 结果 ， 试 
图 从 中 找到 相关 的 信息 。 这 种 方法 的 困难 之 处 在 于 ， 可 能 不 存在 单独 的 网 页 完全 满足 用 户 的 
信息 需求 。 现 在 ， 设 想 该 用 户 直接 向 一 组 用 户 提出 问题 ， 其 中 一 些 人 是 药剂 师 或 者 草药 专家 ， 
他 更 可 能 得 到 答案 。 人 们 向 一 个 社区 提问 ， 恋 社区 涉及 广泛 的 主题 且 由 专家 和 非 专 家 构成 ， 
其 中 每 个 人 都 可 以 选择 回答 这 个 问题 ， 这 种 模式 称 为 基于 社区 的 问答 (community-based 
question answering，CQA)。 这 些 系 统 利 用 人 们 知识 的 力量 来 满足 广泛 的 信息 需求 。 当 今 此 类 
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受 欢 迎 的 商业 系统 包括 YahoolAnswers、Naver 和 一 个 韩国 的 搜索 门户 。 

基于 社区 的 问答 既 有 优点 也 有 不 足 。 优 点 为 针对 复杂 或 罗 涩 的 信息 需求 ， 用 户 可 以 得 到 
答案 ， 能 够 看 到 关于 同一 主题 的 不 同 观点 ， 可 以 与 其 他 具有 共同 兴趣 、 问 题 或 目标 的 用 户 进 
行 交 流 。 不 足 之 处 在 于 ， 对 于 某 一 问题 ， 可 能 没有 任何 回复 ， 需 要 等 待 很 长 时 间 UL) 才 
能 获取 答案 ， 以 及 得 到 的 答案 可 能 是 错误 的 、 误 导 的 、 冒 犯 的 甚至 是 无 用 的 垃圾 。 

正如 前 面 所 述 ， 许 多 提交 的 答案 都 是 低 质 量 的 。 正 如 计算 机 程序 设计 中 的 一 句 格言 所 述 ; 
“garbage in, garbage out”， 研 究 表明 ， 低 质量 的 答案 往往 是 回答 低 质量 的 问题 。 确 实 ， 人 们 
可 以 并 且 实 际 提 出 的 问题 非常 广泛 。 表 10-1 展 示 了 提交 到 Yahoo!Answer 的 一 些 问题 样 例 。 表 
中 的 部 分 问题 组 织 良 好 且 语 法 正确 ， 然 而 其 他 的 却 并 非 如 此 ， 其 中 一 些 问题 有 着 简单 且 直 接 
的 答案 ， 而 其 他 的 许多 问题 却 不 是 这 样 的 。 


表 10-1 提交 到 YahoolAnswer 的 问题 举例 


What part of Mexico gets the most tropical storms? 
How do you pronounce the french words, coeur and miel? 
GED test? 
Why do I have to pay this fine? 
What is Schrédinger’s cat? 
What’s this song? 
Hi...can u ppl tell me sumthing abt death dreams?? 
What are the engagement and wedding traditions in Egypt? 
Fun things to do in LA? 
What lessons from the Tao Te Ching do you apply to your everyday life? 
Foci of a hyperbola? 
What should I do today? 
Why was iTunes deleted from my computer? 
Heather Locklear? 
Do people in the Australian Defense Force (RAAF) pay less tax than civilians? 
Whats a psp xmb? 
If C(-3, y) and D(1, 7) lie upon a line whose slope is 2, find the value of y.? 
Why does love make us so irrational? 
Am I in love? 
What are some technologies that are revolutionizing business? 


除了 允许 用 户 提 出 和 回答 问题 ,CQA 的 用 户 也 可 以 搜索 保存 过 去 曾经 被 提问 的 问题 以 及 
对 应 的 答案 的 存档 集合 。 这 种 搜索 功能 出 于 两 个 目的 。 第 一 ， 如 果 用 户 找到 了 过 去 曾经 问 过 
的 相似 问题 ， 那 么 他 就 不 必 再 次 提问 和 等 待 答案 。 第 二 ， 搜 索引 擎 可 以 通过 命中 间 答 数据 库 
中 的 数据 来 扩充 传统 的 搜索 结果 。 例 如 ， 如 果 一 个 用 户 输入 查询 “schr6dingers cat”， 搜 索引 
获 可 能 将 “What is Schrédinger’s cat” 的 答案 (出 现在 表 10-1 中 ) 连同 其 他 更 标准 的 排序 后 的 
网 页 集合 返回 给 用 户 。 

因此 ， 给 定 一 个 查询 ， 从 问答 数据 库 中 自动 找到 潜在 答案 是 非常 重要 的 。 搜 索 问 答 数 
据 库 的 策略 包括 : 新 查询 仅 匹 配 存档 的 问题 ， 或 仅 匹 配 答案 ， 或 既 匹 配 问题 又 匹配 答案 。 研 
究 表明 ， 查 询 匹 配 存档 问题 比 匹配 答案 要 好 ， 因 为 一 般 来 讲 ， 找 到 相关 问题 〈 它 们 更 可 能 有 
着 相关 的 答案 ) 比 使 用 查询 直接 匹配 答案 要 容易 。 


号 ”在 接 下 来 的 讨论 中 ,“ 查 询 ” 既 可 指 一 个 问题 也 可 指 一 个 网 络 查询 。 
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匹配 查询 与 问题 可 以 使 用 任何 在 第 7 章 介绍 的 检索 模型 ， 如 语言 模型 或 者 BM25。 然 而 ， 
传统 的 检索 模型 可 能 由 于 词 表 不 匹配 问题 而 损失 很 多 相关 的 问题 。 这 里 词 表 不 匹配 问题 源 于 
可 以 通过 多 种 不 同 的 方式 来 问 相 同 的 问题 。 例 如 ， 有 如 下 问题 “who is the leader of India?”。 
相关 的 问题 有 “who is the prime minister of India?”, “who is the current head of the Indian 
government?” 4, 7: Aix ee] MIL AAA “who”, “is”, “the”, “of” #0 “India”, BH 
地 应 用 任何 标准 的 检索 模型 可 能 会 找到 不 相关 的 问题 ， 如 “who is the finance minister of 
India?” #1 “who is the tallest person in all of India?”。 在 这 种 情况 下 ， 云 除 停 用 词 帮 助 不 大 。 
更 好 的 匹配 可 以 通过 泛 化 “leader” 来 包含 其 他 概念 ， 如 “prime minister”, “head” 和 
“government” $, 

在 6.4 节 描述 了 跨 语 言 检索 ， 用 户 用 源 语 言 (如 英语 ) 提交 查询 而 用 目标 语言 对 文档 进行 
检索 〈 如 法 语 )。 多 数 针对 跨 语 言 检索 提出 的 检索 方法 ， 都 是 基于 翻译 模型 ， 在 该 模型 中 ， 需 
要 学 习 翻 译 概 率 P(slt)，s 是 源 语言 中 的 词 ，t 是 自 标语 言 中 的 词 。 翻 译 模 型 也 可 以 用 来 处 理 单 
语 中 的 词 表 不 匹配 问题 ， 这 通过 估计 PGlt) 来 实现 ，t 和 wt 是 同一 语言 的 词 。 这 个 概率 可 以 解释 
为 可 以 用 词 ! 替 换 t' 的 概率 。 回 到 上 面 的 例子 ， 如 果 P(leaderlminister) 和 P(leaderlgoverment) 的 概 
率 值 大 于 0， 将 会 检索 到 更 多 的 相关 问题 。 下 面 介绍 两 种 在 存档 集合 中 检索 相关 问题 和 答案 的 
翻译 模型 。 

第 一 个 模型 由 Berger 和 Lafferty (1999) 提出 。 该 模型 与 7.3.1 节 介绍 的 查询 似 然 模型 类 似 ， 
但 该 模型 允许 查询 词 由 其 他 词 “ 翻 诺 ” 而 来 。 给 定 一 个 查询 ， 相 关 问 题 依 照 下 面 公式 排序 ， 


POIA =| JX Pow Pcl) 


其 中 2 是 一 个 查询 ，4 是 相关 问题 存档 集合 ，VY 是 字母 表 。P(wI9 是 翻译 概率 ，PCl4) 是 文档 4 生 
成 单词 的 平滑 概率 〈 详 见 7.3.1 节 )。 翻 译 模型 允许 查询 词 w 由 其 他 的 词 t 翻 译 而 来 ， 而 ( 则 可 能 
出 现在 问题 中 。 一 个 主要 问题 是 ， 读 模型 并 不 保证 问题 一 定 会 与 查询 相关 ， 因 为 每 一 个 词 都 
是 独立 翻译 的 ， 具 有 最 高 分 的 句子 或 许 是 很 好 的 词 翻 译 ,但 却 未 必 是 很 好 的 总 体 翻译 。 

第 二 个 模型 由 Xue (2008) 提出 ， 是 Berger 模 型 的 一 种 扩展 。 该 模型 中 ， 试 图 通过 使 匹配 
原 查 询 中 的 词 比 匹配 翻译 的 词 具有 更 高 的 权 值 ， 来 解决 上 述 的 问题 。 在 该 模型 下 ， 问 题 (或 
答案 ) 按照 如 下 函数 排序 : 


A-P)f, +BY Pew fi, + woe 
Pai 4)=T] Ža tcl 
h +u 


ZELAO, LIZAR, MR MAR, uADiricher k ABA. HEM, p0h, 
该 模型 与 原始 查询 的 似 然 模型 是 等 价 的 。 随 着 有 不 断 接 近 于 1， 翻 译 模型 对 排序 产生 更 大 影响 ， 
从 而 更 接近 于 Berger 的 模型 。 

利用 这 些 模 型 进行 排序 ， 需 要 很 大 的 计算 代价 ， 因 为 对 每 一 个 词 计 算 时 ， 都 要 考虑 对 整 
个 词 表 进行 求 和 运算 ， 而 词 表 可 能 是 非常 大 的 。 针 对 每 个 查询 词 ， 仅 考虑 小 部 分 翻译 可 以 大 





日 ”这 里 的 讨论 关注 于 问题 检索 ， 但 是 同样 的 模型 同样 可 以 用 来 做 答案 检索 。 正 如 前 面 所 说 ， 问 题 检索 通常 更 
有 效 。 
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大 提高 查询 处 理 的 速度 。 例 如 ， 仅 使 用 5 个 最 可 能 的 翻译 ， 那 么 在 求 和 的 时 候 ， 需要 考虑 的 记 
的 数目 由 V 减 少 到 5。 

到 目前 为 止 被 忽略 的 一 个 问题 是 ， 如 何 计 算 翻 译 概率 。 在 跨 语 言 检索 中 ， 翻 译 概 率 可 以 
使 用 平行 语料库 来 自动 学 习 。 翻 译 概率 通过 文档 对 来 估计 ， 文 档 对 可 表示 为 {(Di, D?),…, (Di, 
Dm}， 其 中 DD 为 由 源 语言 书写 的 文档 i，D'; 为 由 目标 语言 书写 的 文档 i。 但 在 处 理 单 语 翻 译 概率 
时 ， 平 行 语料库 的 概念 变 得 有 些 模糊 。 有 许多 方法 可 以 估计 单 语 的 翻译 概率 。 为 了 找到 相关 
问题 ， 其 中 最 成 功 的 方法 是 ， 假 设 问题 /答案 对 形成 平行 语料库 ， 并 利用 这 个 平行 语料库 计算 
翻译 概率 。 也 就 是 说 ， 翻 译 概率 通过 存档 的 问题 /答案 对 来 估计 ， 其 形式 为 {(Q1, A), …, (On, 
Am)}， 其 中 ;为 问题 !，4 为 答案 i。 表 10-2 给 出 了 使 用 这 种 方法 ， 从 一 个 真正 的 问题 答案 数据 
库 中 估计 翻译 概率 的 例子 。 具 体 如 何 从 平行 语料库 中 估计 翻译 概率 的 算法 ， 在 本 章 末尾 “ 参 
考 文 献 和 深入 阅读 ”一 节 给 出 。 


表 10-2 由 一 个 问题 答案 对 集合 中 自动 学 习 得 到 的 翻译 。 表 中 给 出 了 针对 
“everest”, “xp”. “search” RA BERI JLE 

















everest . xp search everest xp search 
everest xp search mt version web 
mountain window ft click list 
tallest install information measure pe free 
29 035 drive internet feet program info 
highest computer website mount microsoft page 





在 这 一 节 ， 假 设 社区 成 员 会 为 提出 的 问题 提供 答案 ， 问 题 答 案 存档 集合 在 这 一 过 程 中 创 
建 。 正 如 第 1 章 所 述 ， 可 以 设计 问答 系统 利用 大 规模 文档 集 来 回答 一 些 受 限 的 问题 。 我 们 将 在 
第 11 章 详细 讨论 这 些 系统 。 


10.3.4 协同 搜索 

最 后 一 个 基于 社区 的 搜索 任务 是 协同 搜索 (collaborative searching) 。 协 同 搜索 使 一 组 具 
有 相同 搜索 目的 的 用 户 共 同 搜索 。 在 一 些 情况 下 ， 协 同 搜索 是 十 分 有 用 的 。 设 想 一 组 学 生 正 
在 一 起 准备 关于 世界 历史 的 报告 ， 为 了 完成 这 个 报告 ， 学 生 们 必须 针对 报告 主题 做 背景 研究 。 
通常 ， 大 家 会 将 这 个 主题 分 为 若干 个 子 主题 ， 并 且 分 派 给 组 内 的 每 个 成 员 。 之 后 每 个 学 生 通 
过 到 网 络 或 在 线 图 书馆 独立 地 搜集 关于 各 自 子 主题 的 资料 。 最 后 ， 这 些 学 生 会 将 各 个 子 主题 
的 资料 合并 起 来 ， 形 成 一 个 完整 的 报告 。 每 位 学 生 仅 对 于 属于 他 的 子 主题 十 分 了 解 ， 而 没有 
哪个 学 生 完 全 理解 整个 报告 。 显 然 ， 如 果 研 究 过 程 有 更 多 的 合作 ， 每 位 学 生 最 终 会 学 习 到 更 
多 的 知识 。 协 同 搜索 系统 允许 学 生 同 时 搜索 网 络 和 其 他 资源 ， 这 样 组 内 的 每 一 个 成 员 都 可 以 
对 报告 中 的 每 个 子 主题 有 所 贡献 和 理解 。 协 同 检索 在 公司 内 部 也 非常 有 用 ， 许 多 同事 一 定 会 
收集 关于 某 个 项 目的 不 同方 面 的 信息 。 搜 索 休 闲 、 娱 乐 信 息 的 用 户 也 会 发 现 协同 搜索 系统 十 
分 有 用 。 假 设 你 和 朋友 们 正在 筹备 一 个 迹 会 ， 协 同 搜索 系统 将 会 帮助 每 个 人 协调 信息 收集 工 
作 ， 如 找 食谱 、 选 择 装饰 、 挑 选 音 乐 和 发 送 邀 请 等 。 

根据 搜索 参与 者 彼此 之 间 所 处 的 位 置 ， 有 两 种 协作 搜索 的 情景 。 第 一 种 情景 称 为 同位 
(co-located) 协同 检索 ， 指 所 有 的 搜索 参与 者 处 于 同一 地 点 ， 如 同一 个 办 公 室 、 同 一 个 图 书 
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馆 甚至 坐 在 同一 台 计 算 机 前 。 另 一 情景 称 为 远程 (remote) 协同 检索 ， 指 搜索 参与 者 处 于 不 
同 地 点 ， 可 能 处 于 同一 建筑 中 的 不 同房 间 、 辣 一 城市 中 的 不 同 建筑 甚至 不 在 同一 个 国家 。 
10-5 给 出 了 这 两 种 情景 的 示意 图 ， 两 种 情况 面 对 不 同 的 挑战 ， 针 对 每 个 情景 开发 的 系统 也 有 
着 不 同 的 要 求 ， 这 取决 于 它们 如 何 支 持 搜 索 。 为 了 示范 ， 下 面 简要 介绍 两 个 协同 检索 系统 的 
例子 。 











同位 协同 搜索 远程 协同 搜索 





图 10-5 两 种 通用 协同 搜索 情景 概览 。 左 图 为 同位 协同 搜索 ， 该 情景 在 同一 时 间 涉 及 相同 地 点 的 
多 个 参与 者 。 右 图 为 远程 协同 检索 ， 该 情景 在 同一 时 间 涉 及 的 参与 者 在 不 同 地 点 


由 Amershi and Morris (2008) 开发 的 CoSearch 系 统 是 一 个 同位 协同 搜索 系统 。 该 系统 的 
主 显示 器 、 键 盘 和 鼠标 由 一 个 称 为 “driver” 的 人 控制 ， 主 导 整 个 搜索 任务 。 其 他 的 参与 者 称 
为 “observer”, 每 人 有 一 个 鼠标 或 者 具有 蓝牙 9 功能 的 手机 。Driver 向 搜索 引擎 提交 一 个 查询 ， 
开始 一 个 会 话 (session) ， 搜 索 结 果 将 会 显示 在 主 显示 器 和 任何 一 个 拥有 手机 的 用 户 的 显示 屏 
上 。Observer 可 以 点 击 搜索 结果 ， 对 应 的 页 面 将 加 入 一 个 共享 的 页 面 队列 中 。 这 使 得 每 一 位 
参与 者 都 能 够 以 方便 、 集 中 的 方式 推荐 接 下 来 值得 关注 的 网 页 ， 而 不 是 将 控制 权 全 部 交 给 
driver。 除 了 页 面 队列 ， 系 统 还 维护 一 个 查询 队列 ， 记 录用 户 提交 的 新 查询 。 查 询 队 列 为 每 一 
个 用 户 提 供 一 个 查询 列表 ， 其 中 的 查询 可 能 是 有 用 的 、 值 得 关注 的 。 同 时 ， 查 询 队 列 提供 给 
driver 一 个 合作 生成 的 选项 集合 。CoSearch 系 统 为 一 组 用 户 提 供 了 许多 有 用 的 、 使 他 们 一 起 合 
作 的 搜索 ， 它 可 以 使 每 个 人 相互 合作 完成 共同 的 任务 ， 同 时 通过 多 种 输入 设备 维护 分 工 。 

远程 协同 检索 系统 的 例子 是 SearchTogether， 由 Morris and Horvitz (2007b) 开发 。 在 这 
个 系统 中 ,假设 每 一 个 参与 会 话 的 人 都 在 不 同 的 地 点 ,而 且 有 自己 的 计算 机 。 与 同位 协同 搜 
索 假 定 参与 者 在 整个 对 话 中 都 在 线 不 同 ， 远 程 搜索 并 没有 假定 参与 者 是 否 同时 在 线 。 所 以 同 
位 搜索 对 话 往往 是 简短 的 ， 而 远程 搜索 对 话 则 是 持续 的 。 系 统 的 用 户 可 以 提交 查询 ， 这 些 查 
询 将 被 记录 为 日 志 并 与 所 有 参与 者 共享 。 这 使 得 所 有 参与 者 都 能 看 到 其 他 人 搜索 了 哪些 内 容 ， 
并 且 人 允许 他 们 重新 提交 查询 或 优化 查询 。 用 户 可 以 评价 (“thumbs up” 或 “thumbs down”) 
和 评论 搜索 过 程 中 看 过 的 页 面 ， 这 些 页 面 将 被 豪 合 起 来 且 人 允许 其 他 参与 者 访问 。 此 外 ， 参 与 - 


© ”蓝牙 (Bluetooth) 是 一 种 短 距 离 无 线 通信 技术 。 人 允许 电脑 、 打 印 机 、PDA 和 手机 之 间 进 行 无 线 通信 。 
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者 可 以 显 式 地 推荐 页 面 给 其 他 参与 者 ， 这 些 页 面 将 会 出 现在 推荐 页 面 列表 中 。 因 此 ， 
SearchTogether 系 统 提供 了 CoSearch 系 统 具 有 的 大 多 数 功能 ， 此 外 还 适应 远程 协同 搜索 的 特殊 
要 求 。 持 续 搜索 对 话 的 一 个 特别 的 好 处 是 ， 原 来 不 属于 读 搜 索 过 程 的 新 参与 者 ， 可 以 通过 浏 
览 查询 历史 、 页 面 评价 、 评 论 和 推荐 的 内 容 ， 迅 速 地 加 入 到 这 一 过 程 中 来 。 

协同 搜索 为 用 户 提供 了 独特 的 工具 ， 可 以 用 来 在 同位 或 远程 搜索 对 话 中 有 效 地 同 他 人 合 
作 。 尽 管 这 类 系统 具有 光明 前 景 ， 但 在 今天 ， 只 有 很 少 的 商用 协同 搜索 系统 。 然 而 ， 这 种 系 
统 在 研究 社区 内 获得 了 广泛 关注 。 随 着 在 线 体验 中 的 合作 日 益 增长 ， 协 同 检索 系统 被 更 广泛 
地 应 用 也 许 只 是 时 间 问 题 。 


10.4 过 滤 和 推荐 


10.4.1 文档 过 滤 


如 前 面 所 述 ， 社 会 化 搜索 应 用 的 重要 部 分 之 一 ， 是 表示 单个 用 户 的 兴趣 与 和 偏 好。 最 早 关 
注 用 户 描述 文件 (profile) 的 应 用 是 文档 过 滤 。 文 档 过 滤 经 常 简称 为 过 滤 ， 是 对 标准 的 搜索 
模式 的 一 种 替代 或 补充 。 在 标准 的 搜索 中 ， 用 户 随 着 时 间 的 推移 输入 很 多 查询 ， 而 文档 集合 
相对 静止 。 在 过 滤 中 ， 用 户 的 信息 需求 视 为 不 变 的， 而 文档 集合 则 是 随 着 新 文档 周期 性 的 到 
来 而 动态 变化 的 。 过 滤 的 目的 ， 是 识别 出 (过滤 ) 相关 的 新 文档 ， 并 将 其 发 送 给 用 户 。 正 如 
在 第 3 章 所 述 ， 过 滤 是 一 种 推送 (push) 应 用 。 

过 滤 也 是 有 监督 学 习 的 例子 ， 这 里 描述 文件 扮演 着 训练 数据 的 角色 ， 而 进入 的 文本 则 作 
为 测试 用 例 ， 需 要 被 判定 为 相关 或 不 相关 。 在 垃圾 邮件 检测 模型 (spam detection model) h, 
有 大 量 的 标注 过 的 电子 邮件 作为 输入 ， 而 过 滤 系 统 的 描述 文件 可 能 仅仅 是 一 个 单独 的 查询 ， 
这 使 得 学 习 任 务 更 具 挑 战 性 。 由 于 这 个 原因 ， 过 滤 系 统 通 常 不 仅仅 使 用 一 般 的 分 类 技术 ， 而 
是 采取 更 具体 的 技术 来 克服 缺乏 训练 数据 的 问题 。 

尽管 过 让 系统 没有 标准 的 网 络 搜索 引擎 应 用 得 广泛 ， 但 现实 世界 中 仍 有 很 多 文档 过 滤 系 
统 。 例 如 ， 很 多 新 闻 网 站 都 提供 过 证 服务 ， 提 醒 用 户 关注 某 些 事 件 ， 如 突 发 性 的 新 闻 、 某 些 
新 类 别 (如 体育 或 政治 ) 中 新 文章 的 发 布 、 有 关 某 一 特定 主题 的 文章 发 布 ， 这 里 的 主题 通常 
使 用 一 个 或 多 个 关键 词 (如 “terrorism” 或 “global warming”) 来 表示 。 提 醒 以 电子 邮件 、 
短 消息 (文本 信息 ) 或 个 性 化 信息 源 的 形式 实现 。 这 种 方式 使 得 用 户 可 以 持续 关注 某 些 感 兴 
趣 的 主题 ， 而 不 必 频 繁 地 查看 新 闻 网 站 的 更 新 或 在 站 点 的 搜索 引擎 进行 大 量 查询 。 因 此 ， 过 
滤 通 过 维护 长 期 的 信息 需求 ， 提 供 了 一 种 个 性 化 的 搜索 体验 。 

文档 过 滤 系 统 有 两 个 主要 的 组 成 部 分 。 首 先 ， 用 户 的 长 期 信息 需求 必须 精确 地 表示 。 这 
可 以 通过 为 每 一 个 信息 需求 构建 描述 文件 来 实现 。 另 外 ， 对 于 新 来 的 文档 ， 必 须 采 用 一 种 决 
策 机 制 来 判别 哪些 描述 文件 与 该 文档 相关 。 因 为 通常 会 有 成 百 上 千 的 描述 文件 ， 这 个 决策 机 
制 要 求 非常 有 效 而 且 精 确 。 过 滤 系 统 不 应 该 遗漏 相关 的 文档 ， 更 重要 的 是 ， 不 应 该 经 常 将 不 
相关 的 文档 推送 给 用 户 。 在 本 节余 下 部 分 ， 会 详细 描述 这 两 个 部 分 。 

1. 描述 文件 

在 网 页 检索 中 ， 用 户 通常 输入 非常 短 的 查询 。 搜 索引 警 面临 的 一 个 艰巨 挑战 是 ， 如 何 从 
非常 稀 玖 的 信息 中 判断 出 用 户 的 潜在 信息 需求 。 有 很 多 原因 可 以 解释 为 什么 大 多 数 搜索 引擎 
都 通过 短 的 关键 词 查询 来 接受 用 户 的 信息 需求 ， 其 中 一 个 主要 原因 是 ， 用 户 不 愿意 (或 没有 
时 间 ) 对 每 一 个 信息 需求 都 输入 长 的 、 复 杂 的 查询 。 很 多 简单 、 非 持久 性 的 信息 需求 通常 通 
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过 短 的 查询 就 可 以 得 到 满足 。 过 滤 系 统 则 是 为 了 满足 长 期 的 信息 需求 。 因 此 ， 用 户 或 许愿 意 花 
费 更 多 的 时 间 去 详细 地 指定 他 们 的 信息 需求 ， 从 而 能 够 确保 在 较 长 的 时 间 内 获得 高 度 相关 的 结 
果 。 用 户 的 长 期 信息 需求 通常 称 为 过 滤 描 述 文件 (filtering profile) 或 描述 文件 (profile), 

过 滤 摘 述 文件 的 构成 取决 于 特定 领域 的 兴趣 。 描 述 文 件 可 以 像 布尔 或 关键 字 查 询 那样 简 
单 ， 也 可 以 包含 与 用 户 的 信息 需求 相关 或 不 相关 的 文档 。 更 进一步 地 ， 可 以 包含 其 他 项 目 ， 
如 社会 标签 和 相关 的 命名 实体 。 最 终 ， 描 述 文件 可 能 还 有 一 个 或 多 个 关系 约束 ， 如 “发 表 在 
1990 年 以 前 ”"、“ 价 格 在 $10 ~$25” 等 。 与 其 他 一 些 软 约 东 相 比 ， 关 系 约 东 是 一 种 硬 约束 ， 即 
只 有 满足 关系 约束 的 文档 才 可 能 被 检索 。 

尽管 有 许多 方法 表示 描述 文件 ， 但 底层 过 滤 模 型 通常 决定 真正 的 表示 形式 。 过 滤 模 型 与 
第 7 章 叙述 的 检索 模型 非常 相似 。 实 际 上 ， 很 多 广泛 使 用 的 过 滤 模 型 就 是 简单 的 检索 模型 ， 只 
不 过 查询 被 描述 文件 替代 。 有 两 种 典型 的 过 滤 模 型 。 第 一 种 称 为 静态 模型 ， 静 态 是 指 用 户 的 
描述 文件 不 随时 间 改 变 ， 因 而 模型 一 直 被 使 用 。 第 二 种 称 为 自 适应 模型 ， 指 用 户 描述 文件 随 
时 间 变化 。 该 情 最 要 求 过 滤 模 型 随时 间 的 推移 是 动态 的 ， 更 新 的 信息 可 以 被 纳入 描 述 文件 。 

2. HSER 

如 上 面 所 述 ， 静 态 过 滤 模 型 基于 以 下 假设 ; 过 涯 描述 文件 不 随时 间 推 移 而 变化 。 在 很 多 
方面 ， 这 使 得 过 滤 过 程 变 得 简单 ， 但 在 其 他 方面 ， 使 得 过 滤 过 程 不 够 健壮 。 所 有 流行 的 静 坊 
过 滤 模 型 都 由 第 7 章 描述 的 标准 检索 模型 演化 而 来 。 然 而 ， 与 网 页 检索 不 同 ， 过 滤 系 统 并 不 是 
对 每 个 描述 文件 返回 排序 后 的 文档 列表 ， 而 是 当 一 篇 新 文档 到 来 时 ， 过 滤 系 统 必须 决定 这 篇 
文档 与 每 个 描述 文件 相关 与 否 。 图 10-6 展 示 了 静态 过 滤 系 统 是 如 何 工作 的 。 当 新 文档 到 来 时 ， 
他 们 将 与 每 一 个 描述 文件 进行 比较 ， 由 文档 指向 描述 文件 的 箭头 ， 表 示 该 文档 是 相关 的 并 被 
返回 给 用 户 。 
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图 10-6 静态 过 滤 系 统 举例 。 文 档 随时 间 推 移 不 断 进 入 系统 ， 并 与 每 个 描述 文件 进行 比较 。 由 文 
档 指向 描述 文件 的 箭头 ， 表 示 访 文档 匹配 该 描述 文件 并 被 检索 


对 简单 的 情况 ， 可 以 使 用 布尔 检索 模型 。 此 时 ， 过 让 描述 文件 简单 地 表示 为 布尔 查询 ， 
当 且 仅 当 其 满足 该 查询 时 新 到 文档 被 检索 。 布 尔 模型 尽管 简单 ， 却 可 以 有 效 地 应 用 于 文档 过 
滤 ， 尤 其 是 在 要 求 准确 率 更 重要 的 情况 下 。 实 际 上 ， 许 多 基于 网 页 的 过 让 系统 都 采用 布尔 检 
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布尔 模型 一 个 最 大 的 缺陷 是 召回 率 低 。 对 某 些 需 要 过 滤 的 领域 ， 用 户 可 能 希望 在 高 准确 
率 的 基础 上 ， 也 有 很 好 的 覆盖 率 。 针 对 这 一 问题 有 很 多 的 解决 方案 ， 包 括 使 用 向 量 空间 模型 、 
概率 模型 、BM25 或 者 语言 模型 。 通 过 将 描述 指定 为 关键 词 查询 集合 或 文档 集合 ， 这 些 模型 都 
可 以 被 扩展 并 应 用 到 过 滤 中 。 直 接 将 这 些 模 型 应 用 到 过 滤 会 有 些 麻 烦 ， 因 为 这 些 模 型 都 是 返 
回 得 分 ， 而 不 是 像 布 尔 模型 那样 返回 一 个 答案 ， 检 索 或 不 检索 。 为 了 克服 这 一 问题 ， 最 常用 
的 技术 是 设置 一 个 阅 值 来 决定 是 否 检索 一 个 文档 ， 即 只 有 相似 度 大 于 阀 值 的 文档 才 会 被 检索 。 
阔 值 根据 实际 的 效果 进行 调整 。 使 用 全 局 阔 值 时 ， 会 产生 很 多 复杂 的 问题 ， 包 括 如 何 保证 对 
所 有 的 朱 述 文件 和 随时 间 推 移 设置 合适 的 阔 值 。 

作为 一 个 具体 例子 ,下面 描 述 如 何 利用 语言 模型 框架 来 实现 静态 过 滤 。 给 定 一 个 静态 的 
描述 文件 ， 如 一 个 关键 词 查询 、 多 个 查询 、 一 个 文档 集合 ， 或 以 上 情况 的 组 合 ， 必 须 估 计 一 
个 描述 文件 语言 模型 ， 记 为 PP。 下 式 为 其 中 一 种 实现 方法 : 


P(w|P)= d-À) Sa Fra Ae 


> a IT! ACI 








HPT, …, Tt， 为 构成 描述 文件 的 文本 片段 (如 查询 、 文 档 )，a 为 关于 7 了 的 权 值 (重要 性 ) 。 
其 他 的 变量 和 参数 在 第 7 章 进 行 了 具体 定义 。 

当 指定 一 个 传人 的 文档 ， 需 要 估计 文档 语言 模型 (D)。 按 照 第 7 章 的 讨论 ， 采 用 下 面 的 公 
式 估 计 D，; 


fup 
IDI “ici 


随后 文档 按照 描述 文件 语言 模型 (P) 与 文档 模型 (D) 的 负 KL 距 离 进 行 排序 : 


-KL(PIID) = D Po | P)log P(w | D)- 2 Po | P) log P(w | P) 





QUIR-KL(pilD) >t, LEDRA CP, Fea. 
SOAR MADE SAMA. HALERE MARA DRAE (描述 文件 ) 
的 分 类 问题 。 该 任务 为 构建 二 元 分 类 器 ， 判 断 到 来 的 文档 是 否 与 描述 文件 相关 。 为 了 训练 出 
合适 的 模型 ， 训 练 数据 是 必需 的 。 对 于 该 任务 ， 训 练 数据 以 进行 了 二 元 相关 性 判定 的 描述 文 
件 / 文 档 对 的 形式 表示 。 在 第 9 章 描 述 的 任何 分 类 技术 都 可 以 应 用 到 这 里 。 假 设 使 用 线性 核 函 
数 支持 向 量 机 ， 评 分 方程 为 下 面 的 形式 ; 
s(P; D)=w-f(P, D)=w,f(P, D+w,flP, D)+--+w,f,(P, D) 


R, wy, ws 为 SVM 训练 过 程 学 习 到 的 参数 集合 ，AP, D), …, LP, DD) 为 从 描述 文件 /文档 
对 中 提取 的 特征 集合 。 很 多 成 功 应 用 到 文本 分 类 中 的 特征 ， 如 unigrams 和 bigrams， 也 可 以 应 
用 到 过 滤 。 在 具有 大 量 的 训练 数据 的 情况 下 ， 机 器 学 习 方法 的 表现 很 可 能 超过 刚才 描述 的 简 
单 语 言 模型 。 然 而 ， 如 果 只 有 少量 或 没有 训练 数据 ， 语 言 模型 则 是 更 好 的 选择 。 

3. 自 适 应 过 滤 模 型 
， ”静态 过 滤 假 设 描述 文件 不 随时 间 推 移 而 变化 。 在 这 种 设置 下 ， 用 户 描述 可 以 被 创建 却 无 
法 更 新 以 更 好 地 反映 其 信息 需求 。 唯 一 的 选择 即 是 删除 旧 的 描述 文件 ， 重 新 创建 一 个 新 的 描 
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述 文件 ， 但 这 种 系统 不 够 灵活 和 健壮 。 

自 适应 过 汪 是 另 一 种 过 让 技 术 ， 采 用 动态 的 描述 文件 ， 该 技术 提供 随时 间 推 移 自 动 更 新 
描述 文件 的 机 制 。 

描述 文件 可 以 由 用户 输入 进行 更 新 ， 也 可 以 基于 用 户 行为 自动 更 新 。 用 户 行为 包括 点 击 
或 浏览 模式 等 。 有 很 多 原因 可 以 解释 为 什么 随时 间 推 移 自动 更 新 描述 文件 是 非常 有 益 的 。 例 
如 ， 用 户 希 望 微调 他 们 的 信息 需求 ， 以 获得 更 具体 类 型 的 信息 。 因 此 ， 自 适应 过 滤 技 术 比 静 
态 过 滤 技 术 更 加 健壮 ， 可 以 在 描述 文件 的 生命 周期 内 自 适应 地 找到 更 相关 的 文档 。 图 10-7 展 
示 了 针对 与 图 10-6 相 闻 的 找 述 文件 集合 和 进入 的 文档 ， 自 适应 过 滤 是 如 何 工 作 的 。 与 静态 过 
滤 的 情况 不 同 ， 当 一 个 文档 指定 给 某 个 找 述 文件 时 ， 用 户 针对 该 文档 进行 反馈 ， 随 后 描述 文 
件 将 进行 更 新 ， 用 来 匹配 未 来 进入 的 文档 。 





文档 流 


图 10-7 自 适 应 过 滤 系 统 举例 。 随 时 间 推 移 ， 文 档 到 达 并 与 撕 述 文件 进行 比较 。 由 文档 指向 挠 述 
文件 的 第 头 表示 该 文档 匹配 描述 文件 并 被 检索 。 与 静态 过 滤 中 描述 文件 随时 间 推 移 是 静 
态 的 情况 不 同 ， 自 适应 过 滤 的 描述 文件 是 动态 更 新 的 如 有 新 的 匹配 时 ) 


如 10.7 节 所 指出 的 ， 自 适应 更 新 描述 文档 最 常用 的 方法 即 是 根据 用 户 的 反馈 。 用 户 反 馈 可 
以 有 多 种 方式 ， 每 一 种 都 可 以 用 来 以 不 同 的 方式 更 新 用 户 描述 文档 。 为 了 提供 一 个 具体 例子 
说 明 描 述 文 档 是 如 何 根据 用 户 反馈 自 适 应 更 新 的 ， 考 虑 用 户 提供 相关 反馈 (relevance 
feedback， 见 第 6 章 ) 文档 的 情况 。 在 这 种 情况 下 ， 针 对 一 个 文档 集合 ， 如 根据 指定 描述 文件 
检索 到 的 文档 集合 ， 用 户 显 式 地 指出 每 篇 文档 是 相关 的 或 是 不 相关 的 。 和 以 前 一 样 ， 如 何 表 
示 描 述 文档 以 及 随后 如 何 更 新 ， 极 大 地 依赖 于 使 用 的 检索 模型 的 类 型 。 

如 第 7 章 所 述 ，Rocchio 算 法 可 以 使 用 向 量 空间 模型 来 进行 相关 反馈 。 因 此 ， 如 果 描 述 文 
件 表 示 为 向 量 空间 模型 中 的 向 量 ， 当 用 户 提供 相关 反馈 信息 的 时 候 ，Rocchio 算 法 就 可 以 用 来 
更 新 描述 文件 。 对 于 描述 P， 非 相关 文档 集合 ( 记 为 Nonrel) 和 相关 文档 集合 ( 记 为 Rel) ， 自 
ERASIDA SIE PREIS TET 


P'=a: D, -7 一 -一 一 一 
Peli, t Norri, 


i 
onrel 


其 中 ,DD 为 文档 ;的 向 量 表示 ，a、p、y 作 为 参数 ， 用 来 平衡 初始 描述 文件 、 相 关 文档 和 不 相 
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关 文 档 之 间 的 权 值 。 
第 7 章 同 样 介绍 了 相关 性 模型 (relevance model) 是 如 何 结合 语言 模型 来 处 理 伪 相关 反馈 
的 问题 。 然 而 ， 相 关 性 模型 同样 也 可 以 用 来 处 理 真 正 的 相关 反馈 ， 如 下 面 公式 所 示 ; 


Pow1 门 =- ‘peli Y yr | D)P(D, ID) 


~— VS p(wID) 
[Rell jg 


这 里 C 为 数据 集中 的 文档 集合 ，Ret 为 被 判定 为 相关 的 文档 集合 ， 忆 为 文档 ;，P(DID) 为 文档 D， 
由 文档 D 的 语言 模型 生成 的 概率 。 可 以 采用 近似 (=) 的 原因 是 ，D 是 一 个 文档 ， 因 此 当 D=D 
时 ，p(DiD) 为 1 或 非常 接近 于 1， 而 对 其 他 文档 ， 则 接近 于 0。 因 此 描述 文件 中 词 w 的 概率 ， 可 
以 简单 地 通过 计算 相关 文档 语言 模型 中 w 概 率 的 平均 值 来 获得 。 与 Rocchio 算 法 不 同 ， 这 里 并 
没有 考虑 韭 相关 文档 。 

如 果 采 用 第 9 章 所 介绍 的 分 类 方法 来 处 理 过 滤 ， 当 用 户 提 供 新 的 反馈 时 ， 可 以 使 用 在 线 学 
习 算法 来 修正 分 类 模型 。 在 线 算法 通过 一 个 或 一 批 新 来 的 项 目 更 新 模型 的 参数 ， 如 SVM 中 的 
超 平 面 w。 这 类 算法 与 标准 的 有 监督 学 习 方 法 不 同 ， 因 为 它们 没有 “记忆 ”， 一 旦 输入 被 用 作 
训练 ， 随 即 被 清除 而 无 法 继续 显 式 地 用 来 更 新 模型 参数 ， 仅 使 用 新 的 训练 输入 来 训练 。 在 线 
学 习 方法 的 细节 超出 了 本 书 的 范围 。 本 章 最 后 的 “参考 文献 和 深入 阅读 ”中 ， 给 出 了 若干 参 
考 文献 。 

静态 和 上 自 适应 过 让 都 可 以 视 为 第 6、7、9 章 描述 的 许多 检索 模型 和 技术 的 特例 。 表 10-3 总 
结 了 不 同 的 过 滤 模 型 ， 包 括 描述 文件 如 何 表 示 和 更 新 。 实 际 中 ， 向 量 空间 模 型 和 语言 模型 已 
经 被 证 明 针 对 静态 和 自 适应 过 滤 都 是 有 效 且 易于 实现 的 。 分 类 模型 对 于 高 度 动态 的 环境 则 更 
具 健 壮 性 。 然 而 ， 所 有 的 分 类 技术 都 需要 训练 数据 来 学 习 有 效 的 模型 。 


表 10-3 静态 和 自 适应 过 滤 模 型 总 结 。 对 每 种 模型 ， 给 出 了 描述 文件 的 表示 和 更 新 的 算法 


模型 描述 文件 的 表示 描述 文件 更 新 
布尔 模型 布尔 表达 式 N/A 
向 量 空 间 模型 向 量 Rocchio 
语言 模型 概率 分 布 相关 性 模型 
分 类 模型 参数 在 线 学 习 


4. 针对 大 量 描 述 文件 的 快速 过 滤 算 法 

在 大 规模 实际 系统 中 ， 可 能 会 有 数 千 甚至 百 万 级 的 描述 需要 与 进入 的 文档 进行 匹配 。 幸 
运 的 是 ， 应 用 标准 的 信息 检索 索引 和 查询 评价 策略 ， 可 以 有 效 地 进行 匹配 。 在 大 多 数 情况 下 ， 
描述 文件 表示 为 关键 词 集合 或 特征 值 集合 ， 使 得 每 个 描述 文件 可 以 用 第 5 章 讨论 的 策略 进行 索 
引 。 可 扩展 的 基本 索引 技术 可 以 轻易 处 理 百 万 级 其 至 十 亿 级 的 描述 文件 。 一 旦 这 些 描 述 文件 
被 索引 ， 进 入 的 文档 可 以 转化 为 一 个 “查询 *"， 同 样 也 表示 为 关键 词 集合 或 特征 集合 。 然 后 ， 
使 用 该 查 询 在 被 索引 的 描述 文件 中 进行 检索 ， 返 回 描述 文件 的 排序 列表 。 每 篇 文档 将 被 指定 
给 与 查询 相关 度 大 于 指定 阔 值 的 描述 文件 。 

5. 评价 

第 8 章 介绍 的 评价 方法 可 以 用 来 评价 过 滤 系 统 。 然 而 选择 合适 的 评价 标准 是 十 分 重要 的 ， 
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这 是 因为 过 滤 与 新 闻 搜 索 、 网 页 搜索 等 标准 的 搜索 任务 有 所 不 同 。 其 中 最 重要 的 区 别 是 ， 过 
滤 系统 并 不 为 每 个 描述 文件 返回 排序 的 文档 ， 而 是 当 相关 文档 到 达 时 ， 将 其 指定 给 描述 文件 。 
因此 排序 准确 率 和 平均 准确 率 (MAP) 不 适合 用 来 评价 过 滤 系 统 ， 而 通常 使 用 基于 集合 的 评 
价 方法 。 

表 10-4 与 表 8-3 类 似 ， 展 示 了 -篇 文档 针对 某 个 描述 文件 对 应 的 所 有 可 能 。 文 档 可 以 是 相 
关 或 不 相关 的 ， 这 可 从 列 标题 看 出 。 此 外 ， 文 档 可 以 被 过 滤 系 统 检索 或 未 被 检索 ， 可 从 行 标 
题 看 出 。 所 有 过 滤 评 价 标准 都 可 以 根据 该 表格 计算 。 


表 10-4 针对 过 滤 系 统 可 能 输出 的 联 列表 。 其 中 ，7TP (true positive) 为 检索 到 的 相关 文档 数 
B, FN (false negative) 是 未 检索 到 的 相关 文档 数目 ，FP (false positive) BK 
索 到 的 不 相关 文档 的 数目 ，7TN (true negative) 为 未 被 检索 到 的 不 相关 文档 数目 





相关 的 非 相关 的 
被 检索 的 TP FP 
未 被 检索 的 FN TN 





评价 过 滤 系 统 最 简单 的 方式 是 ， 采 用 经 典 的 精确 率 与 召回 率 的 评价 标准 ， 分 别 对 应 于 


TP TP 
Tp7FP 和 LEN “位 道 第 为 精确 率 与 召回 率 的 调和 平均 值 。 一 般 对 每 个 描述 文件 ， 分 别 


计算 评价 指标 而 后 取 平 均值 ， 作 为 对 系统 的 评价 9。 
也 可 以 通过 将 表 10-4 中 的 4 个 表 项 结合 ， 定 义 更 一 般 化 的 评价 标准 : 


U =a: TP+B:TN+8-FP+y: FN 


系数 w、B、5、y 可 以 通过 多 种 方式 设置 ， 以 平衡 评价 的 各 个 组 成 部 分 。 其 中 一 种 设置 方式 在 
过 滤 实 验 中 被 广泛 采用 : a=2, B=0, 6-1, y0, ITP (检索 到 的 相关 文档 ) 被 赋予 权 值 2， 
而 FN (未 检索 到 的 相关 文档 ) 则 给 予 惩 罚 1。 当 然 ， 不 同 的 素数 可 以 根据 具体 任务 的 实际 情 
况 来 确定 。 
10.4.2 协同 过 滤 

静态 和 自 适应 过 滤 并 不 属于 社会 化 的 任务 ， 这 是 因为 描述 文件 被 认为 是 彼此 独立 的 。 如 
果 现在 考虑 描述 文件 之 间 存 在 复杂 的 关系 ， 那 么 可 以 获得 额外 的 有 用 信息 。 例 如 ， 假 想 一 个 
自 适应 过 滤 系 统 有 两 个 描述 文件 ， 称 为 描述 文件 A (对 应 于 用 户 A) 和 描述 文件 B (对 应 于 用 
户 B)。 如 果 用 户 A 和 用 户 B 根 据 各 自 的 描述 文件 对 大 量 文档 具有 相同 的 相关 性 判断 (相关 或 不 
相关 ) ， 可 以 推测 这 两 个 描述 文件 是 相似 的 。 可 以 利用 这 一 信息 来 改善 用 户 A 和 用 户 B 的 相关 
性 匹配 。 例 如 ， 如 果 用 户 A 判 定 一 篇 文档 对 于 描述 文件 A 是 相关 的 ， 那 么 该 文档 很 可 能 与 描述 
文件 B 也 相关 ， 因 而 该 文档 也 应 当 被 检索 ， 即 使 自 适 应 过 滤 系 统 指定 给 它 的 分 值 低 于 预先 指定 
的 阅 值 。 这 个 系统 是 社会 化 的 ， 因 为 返回 给 用 户 的 文档 不 仅 基于 文档 与 描述 文件 的 主题 相关 
性 ， 还 与 拥有 相似 描述 文件 的 用 户 对 该 文档 的 评价 或 反馈 有 关 。 

考虑 描述 文件 (RAA) 之 间 的 关系 ， 并 且 利用 这 些 信息 改善 进入 的 项 目 与 描述 文件 
(或 用 户 ) 间 匹 配 的 过 滤 技 术 ， 称 为 协同 过 滤 (collaborative filtering), WEIR MEER 
系统 的 组 成 部 分 之 一 。 推 荐 系统 利用 协同 过 滤 算 法 推荐 项 目 (如 书籍 或 电影 )。 许 多 主要 的 商 


日 ”回想 一 下 ， 这 称 为 宏 平均 (macroaveraging)。 
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业 站 点 ， 如 Amazon.com 和 Netflix， 都 充分 利用 推荐 系统 为 用 户 提 供 推荐 的 产品 列表 ， 以 希望 
用 户 能 够 看 到 他 可 能 喜欢 却 尚 未 了 解 的 产品 ， 并 可 能 因此 购买 。 所 以 ， 这 类 系统 对 终端 用 户 
和 搜索 引 警 公司 都 非常 有 价值 。 对 用 户 来 说 ， 他 们 可 以 看 到 从 前 没有 考虑 到 的 相关 产品 ， 对 
搜索 引擎 公司 来 说 ， 此 类 系统 有 七 于 增加 收入 。 

本 节余 下 的 部 分 关注 于 推荐 系统 中 的 协同 过 滤 算 法 。 要 指出 的 是 这 些 算法 和 静态 或 自 
适应 过 滤 在 很 多 方面 都 不 同 。 首 先 ， 当 使 用 协同 过 小 算法 进行 推荐 时 ， 通 常 每 一 个 描述 文件 
与 一 个 用 户 相关 联 ， 即 用 户 就 是 描述 文件 。 甚 次， 静态 或 自 适 应 过 泪 系 统 对 每 一 个 进入 的 文 
档 进行 二 元 决策 (检索 或 不 检索 )， 而 推荐 系统 中 的 协 辣 过 滤 算 法 则 是 为 项 目 评 分 (rating). 
这 些 评分 可 以 是 0 (相关 ) 和 1 (不 相关 ) 或 者 更 复杂 ， 例 如 评分 在 1 至 5 范围 内 。 最 后 ， 推 荐 
系统 中 的 协同 过 滤 算 法 不 仅 为 新 到 的 项 目 进行 评分 ， 而 且 对 数据 库 中 所 有 当前 用 户 没有 提供 
显 式 判定 的 项 目 进行 评分 。 与 之 相 比 ， 静 态 和 自 适应 过 滤 算 法 仅仅 决定 是 否 将 进入 的 文档 发 
送 给 用 户 ， 而 从 不 反 过 来 判断 已 有 的 文档 是 否 应 该 被 检索 。 

图 10-8 几 示 用 户 的 虚拟 空 闻 ， 其 有 相似 偏好 和 品味 的 用 户 补 此 接近 。 每 个 用 户头 顶 的 对 
话 框 表示 他 们 对 某 些 项 目的 兴趣 ， 如 关于 热带 鱼 的 电影 。 没 有 对 电影 进行 评分 的 用 户 的 对 话 
框 里 为 问号 。 协 间 过 滤 算 法 的 工作 即 是 尽 可 能 准确 地 预测 用 户 将 会 如 何 对 电影 进行 评分 。 

协同 过 证 在 概念 上 很 简单 ， 细 节 上 却 很 难 。 例 如 ， 必 须 决 定 如 何 表示 用 户 以 及 如 何 度量 
用 户 之 疗 的 相似 度 。 当 相似 用 户 被 识别 之 后 ， 用 户 评分 必须 按照 一 定 方式 合并 起 来 。 另 一 个 
重要 的 问题 是 ， 如 何 评价 协同 过 滤 和 推荐 系统 。 本 节余 下 的 部 分 ， 将 在 详细 介绍 两 种 成 功 应 
用 于 推荐 系统 的 协同 过 滤 算 法 的 同时 ， 闸 述 这 些 问题 。 


图 10-8 推荐 系统 中 的 一 组 用 户 。 用 户 和 他 们 的 评分 被 给 出 。 头 顶 有 问号 的 用 户 表 示 他 们 尚未 对 
项 目 评 分 。 推 荐 系统 的 目的 即 是 填写 问号 的 内 容 


1. 用 户 群 评分 

在 接 下 来 的 两 个 算法 中 ， 假 定 用 户 集 合 为 U， 项 目 集合 为 1[。 进 一 步 地 ，r,(i) 表 示 用 户 4 对 
项 目的 评分 ，?(i) 为 系统 对 用 户 w 对 项 目 i 评 分 的 预测 值 。 注 意 ， 在 用 户 没有 对 项 目 i 评分 时 ， 
rn(i) 是 未 定义 的 。 正 如 稍 后 将 描述 的 ， 这 种 情况 其 实 是 不 必要 的 。 因 此 ， 协 同 过 滤 的 一 般 任 务 
即 为 对 每 一 个 没有 显 式 评分 的 用 户 / 项 目 对 计算 7?,(i)。 假 设 仅 用 显 式 的 评分 作为 输入 来 进行 预 
测 。 进 一 步 地 ， 出 于 简化 的 目的 ， 假 设 评分 为 范围 在 1 至 M 之 间 的 整数 ， 尽 管 多 数 算法 在 连续 
评分 上 同样 工作 得 很 好 。 
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一 个 简单 的 方法 是 ， 首 先 对 用 户 集合 应 用 某 个 第 9 章 介 绍 的 聚 类 算 靶 。 通 常 ， 用 户 被 表示 
AIH EES el for =r), nets ri) o 然而 » 既然 并 不 是 所 有 用 户 都 对 所 有 项 目 进行 评分 3 
向 量 r, 并 不 是 每 一 维 都 被 定义 了 ， 这 对 计算 距离 的 标准 ， 如 余弦 相似 度 ， 提 出 了 挑战 。 因 此 ， 
距离 度量 的 标准 必须 被 修改 ， 以 能 够 处 理 缺 失 的 数值 。 最 简单 的 方法 是 ， 将 缺失 的 数值 都 赋 
予 某 个 值 ， 如 0。 共 他 的 可 能 是 使 用 用 户 的 平均 评分 来 替代 ， 记 为 ， 或 者 使 用 项 目的 平均 
评分 。 

常用 的 用 于 用 户 豪 类 的 相似 广度 量 方法 为 相关 系数 (correlation) ， 其 计算 公式 如 下 : 

Diary, WHOA) GOH) 


HLA, MARA Pe CARO ARS. CRA RET PS 
评价 过 的 项 目 进 行 。 相 关系 数 的 取 值 在 -1 到 1 之 间 ， 其 值 为 1 时 ， 表 示 两 个 用 户 对 同一 项 目 集 
合 具有 相同 的 评分 ， 其 值 为 -1 时 ， 表 示 两 个 用 户 的 评分 截然 相反 。 

在 图 10-9 中 ， 给 定 了 一 个 假想 的 用 户 聚 类 ， 由 虚线 边框 表示 。 用 户 聚 类 之 后 ， 在 某 一 类 
中 的 任 一 用 户 未 评分 的 项 目 ， 将 会 被 指定 为 该 类 内 其 他 用 户 对 这 个 项 目 评分 的 平均 值 。 例 如 ， 
类 A 中 未 对 热带 鱼 电影 评价 的 用 户 将 被 指定 评分 为 1.25， 这 个 数值 正 是 类 A 中 其 他 四 个 用 户 对 
该 电影 评分 的 平均 值 。 该 计算 过 程 的 数学 表示 为 ; 
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图 10-9 EFRAV DAES, AMARA. APR Ee hee 
出 。 在 每 一 个 用 户 群 中 ， 有 一 个 用 户 尚未 评价 该 项 目 ， 这 些 用 户 未 评分 的 项 目 将 会 被 指 
派 一 个 基于 相似 用 户 的 评分 自动 生成 的 评分 


对 一 个 用 户 群 的 用 户 评 分 进行 平均 ， 是 一 种 整合 用 户 群 评分 的 简单 方法 。 另 一 个 选择 是 
使 用 项 目的 期 望 评 分 ， 给 定 用 户 群 内 其 他 用 户 的 评分 ， 其 计算 公式 为 ， 
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A(G) = 2% P(r, À) = x| C = Cluster(u)) 

id x luir lu'r @ = x1 xl 

-> ‘| Cluster(u)|- Cluster(u)| 

这 里 P(r,(i)=xlC=Cluster(w)) 为 给 定 用户 群 Cluster(wu)， 用 户 u 对 项 目 评分 为 x 的 概率 。 通 常用 
= > a KHARE, HMClusteru), HRA Ax PT SALE, Atn, dn 


果 Cluster(m) 中 的 用 让 都 评分 为 5， 那么 ?,( 引 将 等 于 5。 如 果 Cluster(w) 中 有 一 个 用 户 评分 为 1， 


个 用 户 评分 为 5， 那 么 人 (= 145: Žas, 


se FR ARTUR ONET F ARRIER RI, 如 图 10-9 中 的 用 户 群 D。 如 果 用 户 具 
有 独特 的 兴趣 和 品味 而 不 能 聚 到 某 个 合适 的 用 户 群 中 ， 那 么 应 当 如 何 预测 该 用 户 的 评分 呢 ? 
这 是 个 复杂 且 有 挑战 性 的 问题 ， 并 没有 直接 的 答案 。 一 个 简单 但 非常 有 效 的 方法 是 ， 将 项 目 
的 平均 评分 指派 给 用 户 所 有 未 评价 的 项 目 。 遗 憾 的 是 ， 这 种 直接 假设 往往 并 不 符合 实际 。 

2. 最 近邻 评分 

利用 育 类 评分 的 一 个 替代 策略 是 ， 利 用 最 近邻 来 预 负 评分 。 这 种 方法 采用 第 9 章 描述 的 及 
近邻 察 类 技术 。 为 了 预测 用 户 x 的 评分 ， 首 先 依据 某 种 相似 度 度量 方法 确定 与 其 最 相近 的 玉 个 
用 户 ,一旦 找到 这 些 最 相近 的 邻居 ， 利 用 他 们 的 评分 (和 相似 度 ) 来 进行 预测 ， 公 式 如 下 ， 

1 
Sve simu, u’) y 


这 里 sim(x,，x? 是 用 户 z 与 x 的 相似 度 ，N(oO 为 最 相近 邻居 集合 。 算 靶 预测 用 户 xz 对 项 目 ; 的 评分 ， 
首先 包括 用 户 评价 过 的 项 目的 平均 得 分 (元 ) 。 然 后 ， 对 用 户 x 的 每 个 最 相近 邻居 ， 天 全 -元 利 
用 sim(u, uu) 来 加 权 并 被 加 到 最 终 预 测 的 分 数 中 。 你 可 能 想 知 道 为 什么 使 用 7% 介 - 志 而 不 是 
(i)。 这 是 因为 用 户 的 评分 都 是 相对 的 。 有 些 用 户 可 能 很 少 对 任何 项 目 都 评分 为 1， 而 其 他 用 
户 的 评分 可 能 从 来 不 会 低 于 3。 因 此 ， 最 好 用 相对 用 户 的 平均 得 分 来 进行 预测 。 

尽管 基于 聚 类 的 方法 和 基于 最 近邻 的 方法 在 本 质 上 是 相似 的 ， 但 最 近邻 算法 对 噪音 更 具 
健壮 性 。 而 且 ， 使 用 最 近邻 方法 不 需要 选择 聚 类 代价 函数 ， 只 需要 选择 一 个 相似 度 方程 ， 因 
而 使 问题 简化 。 实 验 结果 证 明 ， 在 很 多 数据 集 上 ， 使 用 最 近邻 算法 和 相关 系数 相似 度 预测 评 
分 的 方法 ， 要 超出 基于 襄 类 的 方法 的 表现 。 据 此 ， 采 用 相关 系数 相似 度 的 最 近邻 算法 ， 对 于 
许多 实际 的 协同 过 滤 任 务 都 是 很 好 的 选择 。 

3. 评价 

协同 过 滤 推 荐 系统 可 以 通过 多 种 方式 评价 。 标 准 的 信息 检索 指标 ， 如 第 8 章 所 介绍 的 精确 
率 、 淮 确 率 、 召 回 率 和 F 值 ， 都 可 以 用 来 评价 。 

然而 ， 标 准 的 信息 检索 指标 非常 严格 ， 即 要 求 系统 预测 必须 完全 正确 。 例 如 ， 如 果 用 户 
的 评分 为 4 而 系统 A 预测 值 为 3， 系 统 B 预 测 值 为 1， 那 么 系统 A 和 系统 B 的 精确 率 都 是 0， 因 为 
它们 都 未 能 精确 地 预测 正确 结果 。 然 而 ， 系 统 A 要 比 系统 B 更 接近 于 正确 答案 。 基 于 这 个 原因 ， 
评分 与 预测 评分 之 间 的 差异 常 被 用 作 评 测 。 其 中 一 种 方法 称 为 绝对 误差 (absolute error), $ 
计算 公式 如 下 : 


FD)=F+ gS u'\(r,.@)-F.) 
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1 a. . 
ABS = a dy o O-O 


这 里 求 和 操作 针对 集合 中 所 有 预测 过 的 用 户 /项 目 对 进行 。 另 一 个 评价 指标 称 为 均 方 误差 
(mean squared error, MSE) ， 按 照 下 式 计算 : l 


1 re 
MSE = Tigi yy HO r,(i)) 


绝对 误差 与 均 方 误差 最 大 的 区 别 是 ， 均 方 误差 对 错误 预测 的 惩罚 更 大 ， 这 是 由 于 惩罚 被 
平方 了 。 

以 上 是 针对 协同 式 推荐 系统 最 常用 的 评价 指标 。 那 么 到 底 应 该 选用 哪 种 评价 指标 呢 ? 遗 
憾 的 是 ， 这 并 不 是 容易 回答 的 问题 。 正 如 整 本 书 反 复 指出 的 那样 ， 要 根据 具体 的 任务 选择 合 
适 的 评测 指标 。 

10.5 P2P 搜 索 和 元 搜索 
10.5.1 分 布 式 搜 索 

我 们 已 经 介绍 的 社会 化 搜索 的 应 用 中 ， 包 括 的 是 人 构成 的 网 络 或 社区 ， 但 是 有 很 多 发 现 
和 共享 信息 的 工具 ， 是 在 “节点 ”社区 上 实现 的 ， 每 一 个 节点 存储 并 搜索 信息 ， 节 点 之 间 也 
可 以 相互 通信 。 最 简单 的 分 布 式 搜索 环境 为 元 搜索 引擎 (metasearch engine)， 此 时 每 个 节点 
是 一 个 完全 的 搜索 引擎 。 元 搜索 引擎 从 不 同 的 搜索 引擎 采集 相对 小 规模 的 搜索 结果 ， 并 将 搜 
索 结 果 融 合 以 获得 更 好 的 搜索 效果 。 男 一 方面 ， 一 个 P2P (peer-to-peer) 搜索 应 用 则 通常 拥有 
大 批 节点 ， 每 一 个 节点 有 相对 较 小 的 数据 ， 而 且 对 其 他 节点 的 情况 知之 甚 少 。 

与 仅 使 用 单一 的 文档 集合 的 搜索 应 用 相 比 ， 所 有 的 分 布 式 搜 索 9 应 用 必须 实现 3 个 额外 的 


。 资 源 表示 (resource representation): 生成 信息 资源 的 描述 (例如 文档 ) 存储 在 节点 上 。 
° 资源 选择 (resource selection): 基于 对 资源 的 描述 ， 选 择 一 个 或 多 个 资源 进行 搜索 。 
。 结 果 融 合 (result merging): 融合 由 包含 所 选择 的 信息 资源 的 节点 检索 到 的 结果 列表 。 

这 些 功能 通过 特定 节点 来 执行 ， 并 依赖 于 应 用 的 体系 结构 。 最 简单 的 假设 是 ， 有 一 个 特 
殊 的 节点 提供 选择 和 融合 的 目录 服务 ， 而 其 他 每 个 节点 负责 提供 自身 的 资源 表示 。 对 于 一 个 
具有 图 10-10 所 示 的 体系 结构 的 元 搜索 应 用 ， 资 源 表示 和 选择 功能 是 简单 的 。 并 非 针 对 查询 特 
点 来 选择 搜索 引擎 ， 而 是 由 元 搜索 引擎 将 查询 广播 给 使 用 的 所 有 搜索 引擎 。 对 每 个 搜索 引擎 ， 
通过 应 用 程序 接口 (Application Programming Interface, API) 将 查询 转化 为 搜索 引擎 可 以 理 
解 的 适当 形式 。 由 于 多 数 搜索 引擎 的 查询 语言 都 很 相似 ， 这 种 转换 一 般 是 很 简单 的 。 

更 一 般 地 ， 在 分 布 式 搜索 环境 中 ， 每 个 节点 可 以 表示 为 在 节点 上 存储 的 文档 中 词 项 出 现 
的 概率 ， 即 第 7 章 介 绍 的 用 来 表示 文档 的 unigram 语 言 模型 。 在 这 种 情况 下 ， 仅 用 一 个 语言 模 
型 表示 节点 上 的 所 有 文档 ， 概 率 通过 将 所 有 文档 中 的 词 频 相 加 来 估计 ， 也 就 是 说 ， 节 点 上 存 
储 的 所 有 文档 被 当做 一 个 大 文档 来 估计 语言 模型 。 这 种 表示 是 紧凑 的 ， 并 且 在 分 布 式 检 索 实 
验 中 被 证 明 效 果 良 好 。 在 一 些 应 用 中 ， 节 点 可 以 不 必 服 从 分 布 式 检索 协议 ,而 仅仅 提供 搜索 


日 ”通常 称 为 分 布 式 信息 检索 (distributed information retrieval) 或 联合 搜索 (federated search), 
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API 即 可 。 节 点 内 容 的 语言 模型 描述 可 以 通过 基于 查询 的 采样 (query-based sampling) 生成 。 
这 包括 生成 一 系列 查询 并 从 节点 上 检索 文档 样本 ， 这 些 样本 被 用 来 估计 语言 模型 。 选 择 查询 
词 有 不 同 的 策略 ， 但 是 即使 是 从 检索 的 文档 中 随机 产生 的 查询 ， 也 被 证 明 能 够 生成 准确 的 语 


言 模型 。 
、 Web 搜 索 
= 
查询 一 > Ea vase 
Ea Web 

合并 结果 表 <— ka 
Web 搜 索 

5/3 


图 10-10 元 搜索 引擎 体系 结构 。 查 询 被 广播 到 多 个 搜索 引擎 并 融合 得 到 的 结果 列表 


在 一 般 的 分 布 式 搜索 应 用 中 ， 资 源 选择 包括 ， 首 先 利用 节点 的 表示 对 节点 进行 排序 ， 然 
后 选择 排序 最 前 的 K 个 节点 或 者 所 有 分 数 超过 一 定 阔 值 的 节点 。 既 然 节点 被 表示 为 语言 模型 ， 
我 们 很 自然 地 想到 使 用 查询 似 然 (query likelihood) 对 文档 进行 排序 。 在 分 布 式 搜索 的 文献 
中 ， 有 了 时 也 称 为 KL 距离 资源 排序 算法 ， 因 为 查询 似 然 是 KL 距离 的 一 种 特殊 情况 。 根 据 7.3.1 
节 给 出 的 查询 似 然 值 ， 节 点 N 将 按照 下 式 进行 排序 : 

San + HPC) 


log P(QI N) = Yee [NI 


当 节 点 被 选 定之 后 ， 在 这 些 节点 上 执行 本 地 搜索 (local search)。 这 些 搜 索 的 结果 将 被 融 
合 为 一 个 统一 的 排序 。 如 果 使 用 相同 的 检索 模型 (如 查询 似 然 ) 和 相同 的 全 局 统计 (如 背景 
模型 )， 融 合 仅 基 于 本 地 搜索 的 分 值 。 如 果 每 个 节点 上 采取 不 同 的 全 局 统计 ， 如 仅 利用 本 地 节 
点 上 的 文档 计算 idf 权 值 ， 那 么 融合 之 前 ， 将 通过 共享 这 些 统计 重新 计算 本 地 搜索 的 分 值 。 如 
果 使 用 不 同 的 检索 模型 ， 或 者 全 局 统计 无 法 共享 ， 那 么 在 融合 之 前 ， 分 数 必 须 被 归 一 化 。 一 
个 常用 的 启发 式 归 一 化 方法 为 ， 利 用 文档 4 所 在 节点 在 节点 排序 时 的 分 值 Rs 来 修正 本 地 文档 分 
值 Sv。 如 下 式 所 示 : 

S, = 5,(a+(1-a@)R)) 


其 中 为 常量 ，R ,为 根据 其 他 资源 分 值 归 一 化 后 的 资源 排序 分 值 。 归 一 化 资源 分 值 的 一 种 方 
法 是 ， 为 计算 针对 指定 查询 的 最 小 和 最 大 可 能 分 值 Rs、R。s， 而 后 计算 : 
Ry = (Ry - Rein) (Rew — Ruin) 


也 可 以 通过 比较 文档 集合 中 的 采样 与 本 地 分 值 来 学 习 一 个 归 一 化 方程 (Si&Callan, 2003) 。 
元 搜索 应 用 中 的 结果 融合 与 一 般 的 分 布 式 搜索 不 同 。 元 搜索 的 两 个 特点 是 ， 本 地 搜索 的 

文档 分 值 一 般 是 无 法 获得 的 ， 以 及 本 地 搜索 经 常 在 内 容 相似 的 文档 集合 上 进行 。 例 如 ， 元 搜 

索引 获 使 用 的 多 个 网 络 搜索 引 警 基 本 上 在 相同 的 数据 集 (互联 网 ) 上 使 用 不 同 的 检索 模型 。 
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算法 应 该 特别 处 理 这 种 情况 。 研 究 最 多 的 方法 可 以 用 下 面 的 方程 描述 ， 给 定 修正 后 的 文档 分 
(AS, TRADES, PRR, HS, 为 第 ;个 搜索 引 警 产生 的 分 值 : 


k 
I — Y 
Sa =n} > 
i 


其 中 no 为 结果 列表 中 返回 文档 d 的 搜索 引擎 数 ，y=( 一 1, 0, 1)， 有 k 个 搜索 引擎 返回 结果 。 当 y= 一 
1 了 时， 修正 分 值 为 所 有 本 地 分 值 的 平均 值 ， 当 y=0 时 ， 修 正 分 值 为 本 地 分 值 之 和 ， 当 y=1 时 ， 修 
正 值 为 本 地 分 值 加 权 求 和 ， 权 值 为 返回 文档 4 的 搜索 引擎 数 。 最 后 一 个 版 本 称 为 CombMNZ 
(combine and multiply by the number of non-zero results) ， 该 方法 在 许多 搜索 引擎 结果 融合 的 
实验 中 被 证 明 有 效 。 

通常 ， 在 典型 的 元 搜索 应 用 中 ， 分 值 是 不 可 知 的 ， 因 而 常用 文档 排名 来 代替 。 在 这 种 情 
这 下， 可 以 使 用 CombMNZ 方 程 基于 排名 计算 分 值 。 如 果 结 果 列 表 中 有 m 个 文档 ， 排 名 为 r 的 
文档 的 分 数 将 是 (m 一 r+1)/m。 基 于 排名 的 CombMNZ 产 生 的 融合 排序 ， 尽 管 要 比 苦于 分 值 的 方 
法 要 差 一 些 , 但 也 相当 有 效 。 更 有 效 的 基于 排名 的 融合 算法 ， 可 以 利用 投票 的 技术 来 实现 
( Montague&Aslam, 2002), 

一 般 来 说 ， 分 布 式 地 搜索 非 重生 的 文档 集 与 搜索 所 有 文档 集合 并 得 到 的 单一 文档 集 的 效 
果 相 当 。 当 然 ， 大 多 数 应 用 无 法 构建 这 样 的 文档 集 ， 但 这 可 以 作为 有 用 的 评价 效果 基准 。 
TREC 数 据 集 上 的 实验 表明 ， 当 采用 R- 准 确 率 ，R=10 作 为 评价 标准 时 ， 从 200 个 数据 集中 选择 
5 或 10 个 数据 集 的 分 布 式 搜索 ， 至 少 和 集中 式 搜 索 一 样 有 效 ， 有 时 甚至 更 有 效 (Powell 等 ， 
2000) 。 另 一 方面 ， 在 一 个 P2P 测 试 平台 上 ， 数 据 集 被 分 布 在 2500 个 节点 上 ， 仅 选择 其 中 1% 的 
节点 ，R=10 时 的 R- 准 确 率 要 比 集中 式 搜 索 低 23% (Lu&Callan, 2006), 

元 搜索 融合 了 在 相同 或 近似 的 数据 集 上 的 不 同 搜索 ， 与 单独 搜索 相 比 ， 一 般 提 高 了 检索 
效果 。 在 TERC 上 进行 的 元 搜索 实验 证 明 ， 当 使 用 4 个 不 同 的 搜索 引擎 进行 结果 融合 时 ， 比 使 
用 其 中 最 好 的 搜索 引擎 返回 的 结果 ， 在 平均 准确 率 指 标 上 (依赖 于 测试 使 用 的 查询 集合 ) 提 
mh £5%~20% (Montague&Aslam, 2002), 

10.5.2 P2P 网 络 


P2P 网 络 在 一 系列 包含 用 户 社区 的 应 用 中 被 采用 ， 尽 管 曾经 被 推广 到 音乐 和 视频 的 文件 共 
享 系 统 中 ， 如 KaZaA 和 BearShare。 在 文件 共享 应 用 中 进行 搜索 ， 一 般 通过 限定 具体 的 标题 或 
其 他 属性 ， 如 艺术 家 ， 来 找到 文件 。 换 句 话 说， 它们 支持 简单 的 完全 匹配 搜索 ( 见 第 7 章 )。 
许多 不 同 的 网 络 体系 结构 或 覆盖 网 络 (overlays) 9 被 开发 出 来 ， 以 支持 这 种 类 型 的 搜索 。 
10-11 给 出 了 其 中 3 种 体系 结构 。 

P2P 网 络 中 的 每 个 节点 都 扮演 客户 端 、 服 务 器 或 既是 客户 端 又 是 服务 器 的 角色 。 客 户 端 
(信息 消费 者 ) 提出 查询 进行 初步 搜索 。 服 务 器 (信息 提供 者 ) 返回 文件 (如果 有 匹配 的 文件 ) 
对 查询 进行 响应 ， 也 可 将 查询 路 由 到 其 他 节点 。 负 责 维护 其 他 节点 信息 并 提供 目录 服务 的 服 
务 器 称 为 hub 节 点 。 图 10-11 中 体系 结构 的 差异 ， 主 要 在 于 查询 是 如 何 被 路 由 到 提供 商 的 。 第 
一 个 体系 结构 是 文件 共享 应 用 先驱 Napster 的 基础 ， 一 个 中 心 hub 节 点 提供 目录 服务 。 消 费 者 发 


日 ”覆盖 网 络 描述 了 物理 网 络 (通常 是 互联 网 ) 上 层 实 现 的 节点 间 的 逻辑 连接 。 
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送 查 询 到 hub 节 点 ， 随 后 hub 节 点 将 这 些 查 询 路 由 到 包括 匹配 的 文件 的 节点 上 。 尽 管 这 个 体系 
结构 很 有 效 ， 但 如 果 中 心 hubp 节 点 遇 到 故障 或 者 受到 攻击 ， 整 个 体系 结构 将 受到 影响 。 





c) 
图 10-11 分 布 式 搜索 的 网 络 体 系 结 构 。a) 中 央 hub，b) 纯粹 的 P2P，c) 层次 的 P2P。 黑色 的 加 
为 hub 或 超级 节点 ， 灰 色 的 圆 表示 提供 商 节 点 ， 白 色 的 圆 表示 用 户 节点 


第 二 个 体系 结构 称 为 “纯粹 的 ”(pure) P2P (例如 Gnutella 0.49 )， 这 里 没有 hub 节 点 ， 
用 户 生 成 的 查询 基于 谤 洪 (flooding) 算法 被 广播 到 网 络 上 的 其 他 节点 ， 这 意味 着 一 个 节点 将 
查询 发 送 给 所 有 与 它 相 连 的 节点 ， 这 些 节点 再 将 查询 发 送 给 所 有 相连 的 节点 ， 以 此 类 推 。 在 
过 期 之 前 ， 查 询 具 有 有 限 视野 ， 这 限制 了 网 络 跳 数 (hop)。 节 点 间 的 连接 是 随机 的 ， 每 个 节 
点 仅仅 知道 它 的 邻居 。 这 种 体系 结构 的 问题 是 扩展 性 不 够 好 ， 因 为 网 络 流量 随 着 连接 的 用 户 
数 呈 指数 性 增长 。 l 

第 三 个 体系 结构 是 层次 P2P 网 络 或 超级 节点 网 络 ， 这 种 网 络 是 对 纯粹 的 P2P 网 络 的 一 种 改 
进 。 例 如 Gnutella 0.6 标 准 。 在 层次 网 络 中 ， 是 有 一 个 hub 节 点 和 叶 节 点 的 两 层 结构 。 叶 节点 可 
以 是 提供 商 或 者 消费 者 ， 仅 与 hub 节 点 相连 。hub 节 点 为 与 其 连接 的 叶子 节点 提供 目录 服务 ， 
并 能 向 其 他 hub 节 点 推送 查询 。 

所 有 这 些 网 络 体系 结构 都 可 以 作为 分 布 式 搜索 的 基础 ， 而 不 仅仅 是 文件 共享 中 的 完全 匹 
配 。 如 前 面 所 述 ， 层 次 网 络 具有 健壮 性 和 可 扩展 性 的 优点 (Lu&Callan, 2006)。 在 分 布 式 搜索 
应 用 中 ， 网 络 中 的 每 一 个 提供 商 节 点 在 本 地 文档 集合 进行 搜索 。 消 费 者 节点 为 用 户 提供 接口 
以 提交 查询 ，hub 节 点 获取 邻接 的 hub 节 点 和 提供 商 的 资源 描述 ， 这 些 资 源 描述 用 来 提供 资源 
选择 和 结果 融合 服务 。 特 别 地 ， 邻 接 的 资源 描述 可 以 用 来 比 泛 洪 更 有 效 地 路 由 查询 ， 提 供 商 
的 资源 描述 可 以 用 来 对 本 地 文档 集合 进行 排序 。P2P 系 统 中 ， 每 个 hub 节 点 必须 能 够 决定 使 用 
多 少 提供 商 来 响应 查询 ， 而 不 是 选择 排名 靠 前 、 数 目 固定 的 提供 商 。 

邻接 的 资源 描述 是 查询 路 由 过 程 重要 的 组 成 部 分 。hub 节 点 H; 在 朝向 hub 节 点 本 的 方向 的 


O 7 Gnutella 标 准 的 0.4 版 本 。 见 http://en.wikipedia.org/wiki/Gnutella。 
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邻居 ， 为 一 个 查询 在 一 定 跳 数 之 内 可 以 达到 的 hub 节 点 集合 。 图 10-12 展 示 了 一 个 有 三 个 邻居 
的 hub 节 点 的 例子 ， 这 里 设 定 最 大 跳 数 为 3， 这 样 定义 邻居 的 好 处 是 通过 转移 几 个 跳 数 获得 提 
供 商 的 信息 。 与 仅 使 用 最 近 节 点 相 比 ， 提 高 了 查询 路 由 的 效果 。 





` 
eae . 


图 10-12 层次 P2P 网 络 中 ，hub 节 点 (H) 及 其 邻居 (N) 


hub 节 点 的 资源 描述 是 所 有 与 其 连接 的 提供 商 节 点 的 资源 描述 的 整合 。 换 名 话说 ， 是 一 个 
语言 模型 ， 记 录 了 词语 出 现 的 概率 。 当 前 hub 节 点 的 邻居 资源 描述 是 邻近 的 hub 节 点 的 资源 描 
述 的 整合 ， 但 是 随 着 距 当 前 hub 节 点 的 卡 数 增加 ， 邻 近 hub 的 贡献 减少 。 换 句 话说， 最 近 的 邻 
` 居 hub 节 点 对 邻居 资源 描述 贡献 最 多 。 

在 层次 P2P 网 络 上 实现 的 分 布 式 搜索 实验 表明 ， 其 效果 与 上 节 介 绍 的 使 用 一 个 中 心 hub 节 
点 的 体系 结构 相当 。 更 具体 地 ， 使 用 邻居 和 提供 商 资源 描述 ， 在 P2P 实 验 平台 上 选择 2500 个 节 
点 的 1% 的 方式 与 使 用 中 心 hub 节 点 选择 1% 的 节点 的 方法 ， 具 有 相同 的 平均 准确 率 ， 但 是 网 络 
流量 为 使 用 查询 泛 洪 协议 的 三 分 之 一 (Lu&Callan，2006)。 

文件 共享 系统 另 一 个 流行 的 体系 结构 为 结构 化 (structured) 网 络 。 这 些 网 络 以 一 个 键 值 
关联 于 每 个 数据 项 ， 并 且 使 用 分 布 式 散 列表 (distributed hash table, DHT) 散发 这 些 键 值 。 分 
布 式 散 列表 仅 支持 完全 匹配 搜索 ， 既 然 它 应 用 于 很 多 实际 问题 ， 在 这 里 就 简要 介绍 如 何 利用 
分 布 式 散 列表 来 定位 文件 。 

在 DHT 中 ， 所 有 的 关键 字 和 节点 都 表示 为 m 位 的 数字 或 者 标识 符 。 文 件 的 名 字 利 用 哈 希 函 
数 转 化 为 一 个 键 值 。 这 个 键 值 和 相关 联 的 文件 存储 在 一 个 或 多 个 节点 上 ， 这 些 节点 的 标识 符 
在 数值 上 与 这 个 键 值 接近 。 键 值 之 间距 离 的 定义 依赖 于 具体 的 DHT 算 法 。 例 如 ， 在 Chord 
DHT 中 ， 距 离 为 两 个 m 位 数字 的 数值 差异 (Balakrishnan et al., 2003), 

为 了 找到 文件 ， 包 含 该 文件 名 字 键 值 的 查询 被 提交 到 任 一 节点 。 存 储 与 检索 文档 都 依赖 
于 一 个 节点 ， 该 节点 可 以 将 请 求 发 送 到 标识 符 与 键 值 相近 的 节点 。 这 保证 了 请 求 最 终 可 以 找 
到 最 近 的 节点 。 在 Chord 中 ， 键 值 被 认为 是 环 上 的 一 个 点 ， 如 果 瑟 和 三 是 两 个 邻接 节点 的 标识 
符 ， 标 识 符 为 的 节点 将 负责 所 有 键 值 落 在 k, 和 之 间 的 请 求 。 每 个 节点 都 维护 一 个 包括 IP 地 
址 的 路 由 表 ， 这 些 IP 地 址 对 应 的 标识 符 大 概 是 该 节点 标识 符 的 一 半 、 四 分 之 一 、 八 分 之 一 ， 
”以 此 类 推 。 一 个 节点 将 键 值 的 查询 请 求 推送 到 表 中 标识 符 不 超过 k 的 最 高 节点 。 路 由 表 的 结 
构 保 证 ， 对 于 NN 个 节点 ， 人 负责 键 值 # 的 节点 可 以 在 O(log 入 ) 跳 数 内 被 找到 。 
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比较 了 资源 选择 技术 的 效果 。 一 个 不 同 的 基于 查询 采样 的 资源 描述 生成 算法 ， 称 为 查询 探测 
(query probing)， 在 Ipeirotis 和 Gravano (2004) 中 有 介绍 。 该 工作 关注 于 提供 对 深层 网 络 
(deep Web) 数据 的 访问 ,深层 网 络 数据 指 只 有 通过 搜索 接口 才能 从 网 络 访问 的 数据 库 。 

有 很 多 论文 描述 了 融合 多 个 搜索 引擎 或 检索 模型 输出 的 技术 。Croft (2000) 给 出 了 这 项 
研究 的 概述 ，Montague 和 Aslam (2002) 给 出 了 更 近 一 些 的 研究 工作 。 

对 P2P 搜 索 的 概述 以 及 如 何在 层次 网 络 体系 下 实现 分 布 式 搜索 的 详细 情况 ， 参 见 Lu 和 
Callan (2006, 2007), 


练习 


10.1 指出 社会 媒体 标签 与 锁 文 本 的 相似 点 与 不 同 点 。 

10.2 实现 两 个 度量 标签 之 间 相似 度 的 算法 。 第 一 个 算法 要 求 采用 一 个 标准 的 检索 模型 ， 如 语 
言 模型 。. 第 二 个 算法 要 求 利 用 网 络 或 其 他 资源 来 扩展 标签 的 表示 。 利 用 有 10 一 25 个 标签 
构成 的 数据 集合 测试 两 种 算法 的 效果 。 请 描述 算法 、 评 价 标准 、 标 签 集合 及 结果 。 

10.3 计算 HITS ( 见 算法 3) 和 PageRank ( 见 图 4.11) 算法 在 图 10-3 上 的 五 步 人 迭代。 比较 
PageRank 值 和 HITS 算 法 得 到 的 权威 值 和 中 心 值 。 

10.4 描述 两 种 本 章 没 有 介绍 的 在 线 社区 的 例子 。 怎 样 运用 本 章 提 到 的 社区 发 现 算 法 来 检测 这 
两 种 社区 呢 ? 

10.5 在 网 络 上 找到 一 个 基于 社区 的 问答 网 站 ， 问 两 个 问题 ， 一 个 低 质 量 ， 一 个 高 质量 。 描 述 
这 两 个 问题 的 答案 的 质量 。 

10.6 举 出 网 络 上 两 个 文档 过 证 系统 的 例子 。 它 们 是 如 何 针对 你 的 信息 需求 建立 描述 文件 的 ? 
该 系统 是 静态 的 还 是 自 适应 的 ? 

10.7 列 出 索引 器 的 基本 操作 以 支持 以 下 任务 : 1) 静态 过 滤 ; 2) 动态 过 滤 ，3) 协同 过 滤 。 

10.8 实现 基于 最 近邻 的 协同 过 让 算 法 。 使 用 一 个 公开 的 协同 过 证 数据 集 ， 采 用 均 方 误差 、 欧 
式 距离 和 相关 系数 相似 度 作 为 评价 标准 ， 比 较 实 验 效 果 。 

10.9 本 章 介 绍 的 基于 聚 类 与 基于 最 近邻 的 协同 过 滤 算 法 ， 都 利用 用 户 /用 户 相 似 度 进行 预测 。 
利用 项 目 /项 目 相 似 度 设 计 这 两 类 算法 。 如 何 度量 项 目 之 间 的 相似 度 呢 ? 

10.10 组 建 一 个 2~5 人 组 成 的 用 户 群 ， 使 用 一 个 已 有 的 协同 搜索 系统 。 描 述 你 们 的 体验 ， 包 
括 该 系统 的 优点 和 缺点 。 

10.11 针对 如 何 估计 指定 查询 的 最 大 资源 排序 分 值 和 最 小 资源 排序 分 值 Rasx 和 Rwin， 提 出 你 的 
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建议 。 

10.12 针对 一 组 查询 样 例 ， 使 用 CombMNZ 基 于 排名 的 版 本 融合 两 个 搜索 引擎 的 结果 。 评 价 
融合 后 的 排序 结果 ， 并 与 两 个 搜索 引擎 单独 的 结果 列表 进行 比较 。 

10.13 选择 你 最 喜欢 的 文件 共享 应 用 ， 并 且 了 解 其 如 何 工作 。 找 述 这 个 应 用 ， 并 与 本 章 提 到 
的 P2P 网 络 进行 比较 。 

10.14 具有 小 世界 (small-world) 属性 的 P2P 网 络 中 ， 任 何 两 个 节点 都 由 小 数目 的 跳 数 连接 。 
这 些 网 络 的 特点 是 ， 一 个 节点 有 到 较 近 节点 的 本 地 (local) 连接 和 到 远 距 离 节点 的 长 
距离 (long-range) 连接 ， 这 里 距离 通过 内 容 相 似 度 或 其 他 属性 如 等 待 时 间 来 计算 。 你 
认为 Gnutella 0.4 或 0.6 是 否 具有 基于 内 容 的 小 世界 属性 ? 基于 Chord 的 结构 化 网 络 呢 ? 


第 11 章 超越 词 袋 


“这 意味 着 未 来 就 在 这 里 ， 原 来 的 预测 不 算数 了 。” 





Mulder, «(X #4 #) 
11.1 概述 


“WÈ” (bag of words) 用 来 作为 检索 和 分 类 模型 中 文本 的 一 种 简单 表示 。 在 这 种 表示 中 ， 
文档 被 考虑 为 一 组 无 序 词语 的 集合 ， 它 们 之 间 没 有 句法 或 者 统计 上 的 关系 9。 第 7 章 讨论 过 的 
许多 检索 模型 ， 都 是 基于 词 袋 表示 的 ， 例 如 查询 似 然 模 型 、BM25 模 型 、 向 量 空间 模型 等 。 从 
语言 学 家 的 角度 来 看 ， 词 袋 的 表示 能 力 非 常 有 限 。 没 人 能 够 读 懂 一 个 排序 后 的 词 袋 表示 ， 并 
获得 与 正常 文本 表达 一 样 的 意思 。 例 如 , “No one could read a sorted bag of words 
representation and get the same meaning as normal text” 排 好 序 的 版 本 是 “a and as bag could 
get meaning no normal of one read representation same sorted text the words” , 

尽管 具有 明显 的 限制 ， 词 袋 表 示 仍 然 已 经 在 检索 实验 中 比 更 加 复杂 的 文本 表示 方案 获得 
了 更 大 的 成 功 。 在 基于 词语 的 表示 中 可 以 结合 简单 的 短语 和 邻近 词语 。 这 看 起 来 似乎 具有 明 
显 的 优点 ， 但 是 在 检索 模型 具有 显著 一 致 的 有 效 性 之 前 ， 这 种 结合 却 花 费 了 很 多 年 的 研究 。 
然而 ， 搜 索 应 用 已 经 超越 了 用 词 袋 表示 文档 和 查询 的 阶段 。 对 于 这 些 应 用 ， 需 要 基于 许多 不 
同 特征 来 进行 表示 和 相关 排序 。 从 词 袋 中 衍生 出 来 的 特征 仍然 很 重要 ， 但 是 语言 学 、 结 构 化 、 
元 数据 和 非 文本 特征 ， 也 都 能 有 效 地 应 用 到 检索 模型 中 ， 例 如 推理 互联 网 或 者 Ranking SVM。 
本 章 将 从 检验 基于 特征 的 检索 模型 的 一 般 属性 开始 。 

在 前 面 的 章节 中 ， 已 经 讨论 了 很 多 种 特征 表示 以 及 如 何 将 它们 用 于 排序 。 在 本 章 中 ， 将 
在 四 个 方面 更 详细 地 考察 表示 方法 ， 并 阐述 它们 是 如 何 影响 搜索 引擎 未 来 发 展 的 。 词 袋 模型 
假设 词语 之 间 没 有 关系 ， 所 以 首先 查看 词 项 依赖 性 如 何 被 捕捉 并 用 于 线性 的 基于 特征 的 模型 
中 。 在 词 袋 表示 中 ， 文 档 结 构 是 被 忽略 的 ， 但 是 已 经 看 到 它 对 于 网 络 搜索 的 重要 性 。 表 示 方 
法 的 第 二 个 方面 ， 就 是 数据 库 系 统 中 的 结构 化 表示 如 何 用 于 搜索 引擎 。 在 词 袋 表示 中 ， 查 询 
像 文 档 那样 被 处 理 。 但 是 ， 在 自动 问答 应 用 中 ,查询 的 句法 结构 具有 特殊 的 重要 性 。 表 示 方 
法 的 第 三 个 方面 是 ， 查 询 结 构 是 如 何 用 于 自动 问答 的 。 最 后 ， 词 袋 是 基于 词语 的 ， 在 许多 应 
用 中 ， 用 来 表示 被 检索 对 象 的 特征 可 能 不 是 词语 ， 例 如 图 像 检索 或 音乐 检索 。 因 此 ， 第 四 个 
方面 就 是 ， 这 些 非 文 本 特征 都 有 哪些 ， 以 及 它们 如 何 用 于 相关 排序 。 

在 本 章 的 最 后 一 蔬 ， 将 对 搜索 的 未 来 进行 一 些 适 当 的 构想 〈 不 是 妄想 )。 


11.2 基于 特征 的 检索 模型 
在 第 7 章 中 ， 简 要 介绍 了 基于 特征 的 检索 模型 ， 这 里 提供 更 加 详细 的 介绍 ， 因 为 这 个 模型 
对 现代 搜索 引擎 的 重要 性 越 来 越 大 。 


O ”在 数学 中 ， 一 个 袋 就 像 一 个 集合 ， 但 是 允许 重复 〈 即 一 个 词语 可 以 多 次 出 现 )。 
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MFRLERADMAWRASO, TAELESSRMA RANT RAE BRS(D; 8)。 给 
定 一 个 查询 Q;:， 打 分 函数 5,(D; 8) 对 每 个 DED 计 算 一 次 ， 然 后 所 有 文档 根据 它们 的 得 分 降序 
排序 。 对 于 基于 特征 的 线性 模型 ， 限 定 文档 的 打分 函数 为 如 下 形式 : 


SP;O= Df(DO+Z 
J 


其 中 f(D; OA—/ MAE BR, HA R Zea, RD (但 
可 能 依赖 于 A 或 者 C) 。 特 征 函 数 对 应 于 前 面 提 到 的 那些 特征 。 虽 然 一 些 模型 允许 特征 的 非 线 
性 组 合 ， 但 是 迄今 用 于 研究 和 应 用 的 打分 函数 ， 都 是 基于 线性 组 合 的。 由 于 这 个 原因 ， 这 里 
关注 基于 特征 的 线性 模型 。 注 意 ， 这 个 排序 函数 是 第 5 章 中 描述 的 抽象 排序 模型 的 泛 化 。 

为 了 定义 打分 函数 的 形式 ， 还 需要 明确 寻找 最 优 参 数 的 方法 。 因 此 ， 需 要 一 组 训练 数据 T 
和 一 个 评价 函数 ECR; 7)， 其 中 R 是 所 有 查询 根据 打分 函数 获得 的 一 组 排序 结果 。 给 定 排序 列 
表 和 训练 数据 ， 评 价 函 数 返 回 实数 值 的 输出 。 注 意 ，E 只 需要 性 虐 文 档 的 排序 而 不 需要 文档 的 
得 分 ， 这 是 第 8 章 中 描述 的 评价 度量 的 标准 特点 ， 例 如 平均 精确 率 、P@10、NDCG。 

基于 线性 特征 的 检索 模型 的 目标 是 ， 寻 找 一 个 参数 设置 A， 使 得 可 以 对 训练 数据 最 大 化 评 
价 函 数 E。 这 一 点 可 以 形式 化 表示 为 : 

A =argmax E(R,;T) 


其 中 Rs 是 线性 打分 函数 7 多. AD, 8)+Z 返 回 的 相关 排序 结果 。 

对 于 数量 较 少 的 特征 ， 最 佳 参 数值 可 以 在 所 有 可 能 值 的 整个 空间 中 进行 暴力 搜索 来 获得 。 
对 于 数量 较 多 的 特征 ， 就 需要 一 种 优化 步骤 ， 例 如 Ranking SVM 模型 中 所 采用 的 优化 。 基 于 
特征 的 线性 模型 对 比 其 他 检索 模型 的 核心 优势 ， 就 是 可 以 方便 地 在 模型 中 加 入 新 的 特征 ， 并 
且 在 给 定 训练 数据 时 ， 可 以 进行 有 效 的 优化 。 这 些 优 点 使 基于 特征 的 线性 模型 成 为 对 本 章 中 
讨论 的 各 种 特征 表示 进行 整合 的 理想 框架 。 

一 个 数量 相对 较 少 的 特征 集合 ， 已 经 被 用 来 作为 第 7 章 中 描述 的 、 主 题 相 关 的 检索 模型 的 
基础 。 它 们 包括 : 

“ 词 项 出 现 : 一 篇 文档 中 某 个 词 项 是 否 出 现 。 

。 词 项 频率 : 一 篇 文档 中 某 个 词 项 出 现 的 次 数 。 

“倒置 文档 频率 : 包含 特定 词 项 的 文档 数目 的 倒数 。 

XEKE: 文档 中 词 项 的 个 数 。 

* 词 项 邻近 : 一 篇 文档 中 的 词 项 共 现 模式 (融合 词 项 依赖 性 的 最 普通 的 形式 )。 

Galago 查 询 语言 (以 及 基于 此 的 推理 网 络 模型 ) 提供 了 一 种 确定 特征 范围 ， 并 根据 这 些 
特征 的 线性 加 权 组 合 对 文档 打分 的 方法 。 更 一 般 地 ，Galago 的 #feature 操 作 可 以 支持 任意 特征 
的 定义 和 组 合 。 例 如 ， 使 用 这 个 操作 ， 可 以 将 根据 BM25 的 词 项 加 权 函 数 的 特征 作为 打分 函数 
的 一 部 分 。 像 推理 网 络 模 型 那样 ，Galago 并 没有 指明 特定 的 优化 方法 来 寻找 最 佳 的 参数 值 
( 即 特征 权 值 )。 


11.3 词 项 依赖 模型 


第 4 章 中 讨论 了 作为 短语 的 一 部 分 的 词语 之 间 关 系 的 潜在 重要 性 。 在 第 5 章 ， 展 示 了 词 项 
邻近 如 何 被 融入 到 索引 中 。 第 6 章 描述 了 度量 词语 之 间 关 联 性 的 技术 。 第 7 章 介绍 了 词 项 关系 
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如 何 采 用 Galago 查 询 语言 进行 表示 。 探 究 词 语 之 间 的 关系 ， 显 然 是 构建 高 效 搜索 引 敬 的 一 个 
重要 部 分 ， 尤 其 是 对 于 网 络 搜索 这 类 应 用 ， 大 量 文档 包含 了 全 部 或 者 绝 大 多 数 的 查询 词 。 采 
用 词 项 关系 的 检索 模型 经 常 被 称 作 词 项 依赖 模型 。 因 为 它们 不 假设 词语 的 出 现 是 彼此 独立 的 。 
更 一 般 地 ， 词 项 依赖 信息 可 以 被 整合 到 大 量 用 于 排序 算法 的 特征 中 。 

7.5 节 描述 的 Galago 实 现 的 网 络 搜索 基于 一 种 特定 的 基于 特征 的 线性 模型 ， 称 为 马尔 可 夫 
随机 域 (Markov Random Field, MRF) 模型 (Metzler & Croft, 2005b)。 这 个 模型 除了 允许 任 
意 特征 外 ， 还 明确 表示 词 项 之 间 的 依赖 性 。 尽 管 已 经 有 人 提出 了 大 量 的 词 项 依赖 模型 ， 这 里 
仍然 介绍 一 下 MREF 模 型 。 因 为 它 在 文档 排序 和 伪 相 关 反 馈 的 相关 过 程 中 ， 都 具有 显著 的 性 能 
改进 (Metzler & Croft, 2007a)。 

MRF 模 型 首先 构建 一 个 图 ， 由 一 个 文档 节点 和 每 个 查询 词 项 对 应 的 节点 组 合 而 成 。 这 些 
节点 表示 马尔 可 夫 随 机 域 中 的 随机 变量 。 这 是 一 种 表示 联合 分 布 的 一 般 方法 。 由 此 ， 在 MRF 
模型 中 ， 禾 盖 文档 随机 变量 和 查询 词 项 随机 变量 的 联合 分 布 开 始 由 模型 处 理 。 马 尔 可 夫 随 机 
域 一 般 表 示 为 图 ， 因 此 被 看 成 是 一 种 图 模型 。 特 定 情况 下 ，MRF 是 无 向 图 模型 ， 图 中 的 边 都 
是 无 向 的 。 第 7 章 中 描述 的 推理 网 络 模 型 就 是 有 向 图 模型 的 例子 。 

MRF 模 型 中 ， 通 过 绘制 一 条 随机 变量 之 间 的 边 来 描述 它们 之 间 的 依赖 性 。 由 于 查询 词 项 
的 重要 性 依赖 于 文档 ,文档 节点 总 是 连接 着 每 个 查询 词 项 节点 。 直 接 描述 查询 词 项 依赖 性 的 
方法 是 ， 在 查询 词 项 节点 之 间 连 线 。 有 很 多 种 可 能 方式 来 确定 哪个 词 项 节点 需要 绘制 一 条 边 ， 
图 11-1 中 概括 了 这 些 不 同 的 情况 。 在 最 简单 的 情况 下 ,查询 词 项 之 间 设 有 绘制 任何 边 ， 这 对 
应 于 全 独立 假设 ， 即 查询 词 项 之 间 不 存在 任何 依赖 性 ， 这 等 同 于 第 7 章 中 描述 的 一 元 语言 模型 
或 者 词 袋 模型 中 的 任何 词语 。 另 外 一 种 可 能 是 对 相 邻 的 查询 词 项 画 边 ， 这 就 是 序列 依赖 假设 。 
这 个 假设 认为 邻近 的 词 项 之 间 是 相互 依赖 的 ， 但 是 更 远 的 词 项 就 没有 关系 了 。 这 种 类 型 的 假 
设 类 似 于 二 元 语言 模型 。 还 有 一 种 可 能 的 假设 是 ， 所 有 的 词 项 都 依赖 于 其 他 所 有 词 项 ， 这 就 
是 全 依赖 假设 。 最 后 一 种 可 能 是 ， 查 询 词 项 之 间 的 边 根 据 某 些 有 意义 的 方式 绘制 ， 例 如 自动 
或 者 手工 识别 那些 相互 依赖 的 词 项 ， 这 称 为 一 般 依赖 。 但 是 ， 实 践 证 明 ， 使 用 序列 依赖 假设 
是 最 佳 选 择 。 事 实 上， 所 有 尝试 手工 或 者 自动 确定 哪些 词 项 之 间 有 共有 依赖 性 的 方式 ， 都 不 如 
ee 
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图 11-1 马尔 可 夫 随 机 域 模型 假设 的 例子 ， 包 括 全 独立 (左上 )、 序 列 依赖 (右上 )、 人 多 依赖 
(左下 )、 一 般 依赖 CAT) 
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MRF 图 建立 以 后 ， 必 须 在 图 中 的 团 (cliques) 上 定义 一 组 势 函 数 。 势 函数 就 是 团 中 随机 
变量 观察 值 之 间 相 容 性 的 度量 。 例 如 ， 在 图 11-1 中 的 序列 依赖 图 中 ， 由 词 项 q;,、4q; 和 文档 DD 构 
成 的 团 的 势 函 数 可 以 计算 文档 D 中 短语 “gq 92?” 精确 出 现 的 次 数 ， 或 者 这 两 个 词 项 在 彼此 的 某 
个 窗口 中 一 起 出 现 的 次 数 。 因 此 ， 这 些 势 函数 都 非常 通用 ， 可 以 计算 文本 中 大 量 的 不 同 特征 。 
基于 这 种 方式 ，MRE 模 型 比 其 他 模型 更 加 强大 ， 例 如 语言 模型 或 者 BM25 横 型 。 因 为 它 允 许 依 
赖 性 和 任意 特征 被 直接 加 入 到 模型 中 。 

通过 构建 具有 特定 形式 的 查询 ，Galago 搜 索引 擎 可 以 用 来 效法 TREC 实 验 中 非常 有 效 的 
MRF 模 型 。 这 种 方法 也 用 在 7.5 节 中 。 例 如 ， 给 定 查 询 president abraham lincoln， 全 独立 MRP 
模型 可 以 采用 下 述 查 询 来 计算 : 


#combine(president abraham lincoln) 


注意 ， 这 是 最 基本 的 形式 ， 没 有 考虑 词 项 之 间 的 任何 依赖 。 序 列 依赖 的 MRF 模 型 可 以 通 
过 采用 下 述 查 询 计算 : 
#Hweight(0.8 #combine(president abraham lincoln) 
0.1 #combine(##od: | (president abraham) 
#od:| (abraham lincoin) 
0.1 #combine(#uw:8(president abraham) 
#uw:8(abraham lincoln) 


这 个 查询 形式 由 三 部 分 构成 ， 每 部 分 都 对 应 用 于 MRF 模 型 的 一 个 确定 的 特征 类 型 。 第 一 
部 分 计算 匹配 单独 词 项 的 贡献 得 分 ， 第 二 部 分 计算 查询 中 匹配 子 串 短语 的 贡献 得 分 。 这 允许 
精确 匹配 “president abraham” 和 “abraham lincoln” 的 文档 获得 更 高 的 得 分 。 注 意 ， 这 些 短 
语 只 由 邻近 的 查询 词 项 构成 。 因 为 序列 依赖 模型 只 考虑 邻近 查询 词 项 的 依赖 性 。 形 式 中 的 第 
一 部 分 计算 邻近 查询 词 项 在 无 序 窗口 中 的 匹配 贡献 得 分 。 特 定 情况 下 ， 如 果 词 项 “president” 
和 “abraham” -一 起 出 现在 8 个 词 项 的 窗口 中 ， 文 档 的 得 分 就 会 增加 。 注 意 ， 每 个 部 分 都 是 被 
加 权 的 ， 在 单独 词 项 部 分 权 值 为 0.8， 精 确 短语 和 无 序 窗口 部 分 的 权 值 为 0.1。 这 些 来 自 经 验 的 
权 值 表明 了 ， 文 本 中 匹配 单独 的 词 项 比 匹配 完整 的 短语 和 邻近 特征 具有 相对 更 大 的 重要 性 。 
虽然 其 他 特征 也 显示 了 重要 性 ,但 是 单独 的 词 项 是 最 重要 的 匹配 。 
在 Galago 中 ， 将 纯 文本 的 查询 0 转换 为 序列 依赖 的 MRF 查 询 是 非常 简单 的 。 第 一 个 部 分 
(对 于 单独 的 词 项 ) 是 简单 的 #combine(Q)， 第 二 部 分 是 将 每 对 邻近 的 查询 词 项 放 和 信 #od:1 操 作 
符 中 ， 并 组 合 这 些 操 作 符 到 一 个 #combine 中 ， 第 三 部 分 和 最 后 部 分 将 每 对 邻近 查询 词 项 放 入 
一 个 #uw:8 操 作 符 中 ， 并 采用 #combine 结 合 起 来 。 三 个 部 分 分 别 给 定 权 值 0.8、0.1、0.1， 采 用 
前 面 介绍 过 的 #weight 操 作 符 整合 起 来 。 
最 后 ， 全 依赖 MRF 模 型 最 为 复杂 ， 因 为 考虑 了 更 多 的 依赖 性 。 但 是 ， 为 了 完整 性 ， 展 示 
全 依赖 MRF 模 型 的 查询 如 下 : 
#weight(0.8 #combine(president abraham lincoln) 
4. | #combine(#od: | (president abraham) 
#od:| (abraham lincoln) 
#od: | (president abraham lincoln)) 
0.1 #combine(#uw:8(president abraham) 
#uw:8(abraham lincoin) 


#Huw:8(president lincoln) 
#uw:12(president abraham lincoln))) 
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值得 重视 的 是 ， 为 了 计算 不 同 的 单独 词 项 、 精 确 短语 和 无 序 短语 特征 ， 这 里 所 有 例子 中 
使 用 的 #eombine 操 作 可 以 方便 地 由 #ieature 操 作 替 换 。 例 如 ， 可 以 使 用 #ifeature 来 实现 BM25 加 
权 ， 并 基于 Galago 的 默认 权 值 来 计算 依赖 模型 。 

MRE 模 型 还 能 用 来 模拟 伪 相 关 反 馈 中 的 依赖 性 。 伪 相关 反馈 在 7.3.2 节 中 是 一 种 重要 的 查 
询 扩 展 技术 。 图 11-2 比 较 了 用 于 伪 相 关 反 馈 的 相关 性 模型 的 图 模型 和 被 称 为 潜在 概念 扩展 9 的 
MRF 方 法 。 相 关 模 型 的 图 (上 面 那个 ) 表示 一 个 词 袋 或 者 一 元 模型 ， 是 在 给 定 一 个 特定 文档 
词语 的 出 现 后 彼此 无 关 的 模型 。 伪 相关 反馈 使 用 一 组 排序 较 高 的 文档 来 估计 给 定 查询 词语 时 
扩展 词语 (ENS) 的 概率 。 那 些 具 有 最 高 概率 的 词语 被 加 入 到 查询 中 。 





图 11-2 针对 查询 “hubble telescope achievement” 的 两 个 图 模型 ， 上 图 表示 相关 性 模型 技术 ， 
下 图 表示 用 于 伪 相 关 反 馈 的 潜在 概念 


下 辆 是 隐 含 概念 扩展 图 ， 展 示 了 查询 词语 和 扩展 词语 之 间 的 依赖 性 。 擅 相关 反馈 过 程 将 
排序 靠 前 的 文档 用 来 估计 可 能 的 扩展 词语 的 概率 ， 但 是 依赖 性 会 改变 估计 那些 概率 的 方式 ， 
一 般 会 得 到 更 好 的 结果 。 为 了 对 扩展 词语 之 间 的 依赖 性 建 模 ， 隐 含 概念 扩展 模型 能 够 产生 多 
词 短 语 来 作为 扩展 词 项 ， 而 不 仅仅 是 词语 。 例 如 ， 表 11-1 展 示 了 对 于 查询 “hubble telescope 
achievements” 采 用 隐 含 概念 扩展 模型 获得 的 排序 靠 前 的 一 词 和 二 词 概念 。 


表 11-1 对 于 TREC ROBUST 数据 集中 的 查询 “hubble telescope achievements”, RA 
隐 含 概念 扩展 模型 在 最 靠 前 的 25 个 文档 上 获得 的 排序 靠 前 的 一 词 和 二 词 概 念 















telescope hubble telescope test hubble mirror 

hubble space telescope new NASA hubble 

space hubbie space discovery telescope astronomy 

mirror í telescope mirror time telescope optical 

NASA telescope hubble universe hubble optical 

launch mirror telescope optical telescope discovery 
` astronomy telescope NASA light telescope shuttle 


shuttle 





telescope space 


O ”潜在 概念 或 者 隐 含 概念 是 用 户 在 表达 查询 时 头脑 中 思考 的 词语 或 者 短语 ， 并 没有 明确 提 到 。 
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概括 一 下 ，MRF 模 型 是 一 种 基于 特征 的 线性 检索 模型 ， 是 一 种 在 排序 文档 使 用 的 打分 函 
数 中 ， 有 效 融 合 基 于 词 项 依赖 特征 的 方法 。 在 MRF 框 架 中 ， 隐 含 概念 扩展 支持 伪 相 关 反 馈 。 
隐 含 概念 扩展 可 以 看 成 是 “特征 扩展 ”技术 ， 因 为 它 能 通过 基于 扩展 的 查询 得 到 新 特征 ， 并 
加 入 到 原来 的 特征 集合 中 。 


11.4 再 谈 结构 化 


建立 一 个 常规 平台 来 处 理 结构 化 数据 和 非 结 构 化 数据 ， 是 长 期 存在 的 目标 ， 可 以 追溯 到 
20 世 纪 60 年 代 。 从 数据 库 和 信息 检索 角度 ， 已 经 提出 了 许多 方法 ， 但 是 寻找 解决 方案 的 动机 
却 在 不 断 增长 ， 因 为 海量 规模 的 网 络 数据 库 诞生 了 ， 曾 经 一 度 只 是 信息 检索 感 兴 趣 的 领域 ， 
例如 统计 推理 和 相关 排序 ， 现 在 都 变 成 了 数据 库 研 究 人 员 的 重要 话题 。 并 且 都 在 共同 关心 对 
互联 网 规模 数据 提供 有 效 索 引 和 优化 技术 。 探 究 文档 结构 是 网 络 搜索 的 关键 部 分 ， 有 效 融合 
不 同 来 源 的 证 据 是 许多 数据 库 应 用 的 重要 部 分 。 整 合 有 许多 方式 ， 例 如 扩展 数据 库 模 型 ， 来 
更 有 效 地 处 理 概率 。 扩 展 信息 检索 模型 用 来 处 理 更 加 复杂 的 结构 和 多 元 关系 ， 或 者 开发 通用 
的 模型 和 系统 ， 诸 如 网 络 搜索 、 电 子 商 务 和 数据 挖 所 等 应 用 ， 提 供 了 测试 平台 ， 基 于 这 些 测 
试 平台 ， 我 们 可 以 对 这 些 系统 进行 评测 和 对 比 。 

在 第 7 章 中 ， 展 示 了 文档 结构 是 如 何 采 用 Galago 查 询 语言 处 理 的 。 从 传统 数据 库 的 角度 来 
看 ， 使 用 Galago 来 表示 和 查询 数据 存在 问题 。 按 照 关系 数据 库 术语 来 说 ， 这 里 没有 模式 9S， 
不 能 定义 属性 的 数据 类 型 ， 没 有 关系 之 间 的 联合 操作 。 相 反 ， 正 如 第 7 章 所 述 ， 一 篇 文档 表 
示 为 一 个 由 标签 对 定义 的 上 下 文 (TERE) 集合 。 文 档 简单 地 存储 在 数据 库 中 ， 只 能 通过 
主键 访问 ， 主 键 就 是 文档 的 标识 符 。 查 询 语言 支持 基于 文档 结构 和 内 容 的 搜索 特征 的 定义 和 
组 合 ， 带 有 不 同上 下 文 的 不 同文 档 ， 可 以 整合 到 一 个 单独 的 Galago 数 据 库 中 。 每 个 文档 都 只 
被 它 包 含 的 上 下 文 索引 。 虽 然 没 有 办 法 定义 上 下 文 的 数据 类 型 ， 但 是 可 定义 关联 特定 数据 类 
型 的 操作 符 ， 并 应 用 到 特定 的 上 下 文中 。 例 如 ， 时 间 范 围 操 作 可 以 应 用 到 包含 文档 创建 日 期 
的 上 下 文中 。 

虽然 和 全 关系 数据 库 系 统 的 功能 非常 不 同 ， 但 是 在 许多 包含 搜索 引擎 的 应 用 中 ， 这 种 额 
外 的 功能 并 不 需要 。 例 如 ， 第 3 章 中 介绍 的 
BigTable 存 储 系 统 ， 就 没有 数据 类 型 或 连接 操 
作 。 另 外 ， 它 只 有 一 个 非常 简单 的 元 组 和 属性 
名 称 的 规范 。 诸 如 BigTable 的 系统 专注 于 提供 
对 许多 组 件 可 能 失效 的 环境 下 的 数据 一 致 性 和 -scalability 
可 靠 数 据 访 问 ， 以 及 采用 分 布 式 计算 资源 的 可 
扩展 能 力 。 数 据 访问 提供 简单 的 API， 从 克 许 客 BnS Gee A 
户 端 应 用 到 读 、 写 、 删 除数 值 。 图 11-3 概 括 了 
诸如 网 络 搜索 或 者 电子 商务 等 搜索 引擎 和 数据 库 系 统 应 用 中 提供 的 功能 。 注 意 ， 搜 索引 擎 建 
立 的 索引 不 存储 在 数据 库 系 统 中 。 












搜索 引擎 数据 库 










简单 API 











-indexing 
-query language 
-ranking 










-persistence 
-reliability 
-scalability 


日 ”模式 是 数据 库 中 逻辑 结构 的 一 种 描述 ， 这 种 找 述 可 以 是 关系 ( 表 ) 的 名 称 和 每 种 关系 的 相关 属性 。 
”联合 操作 根据 一 个 或 多 个 普通 属性 来 连接 不 同 关系 的 元 组 ( 行 )。 一 个 例子 是 ,根据 产品 数量 属性 连接 产 
品 信息 到 厂商 信息 上 。 
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11.4.1 XML 检索 


XML 是 一 项 重要 的 标准 ， 用 于 在 应 用 之 间 交 换 数据 并 对 文档 编码 。 为 了 更 支持 面向 数据 
的 操作 ， 数 据 库 领域 已 经 定义 了 用 于 描述 XML 数据 结构 的 语言 (XMLA, Schema), R 
对 XML 数据 的 查询 和 操作 (XQuery 和 XPath) 。XQuery 是 一 种 类 似 于 数据 库 语 言 SQL 的 查询 
语言 ， 最 主要 的 区 别 就 是 ， 它 必须 处 理 层 次 化 的 XML 数据 结构 ， 而 SQL 处 理 简 单 关系 数据 中 
的 表格 结构 。XPath 是 XQuery 的 子 集 ， 用 于 将 搜索 限定 在 单 类 型 XML 的 数据 或 文档 上 。 例 如 ， 
XPath 可 以 用 于 在 XML 电 影 数 据 库 中 查找 由 特定 人 导演 或 者 在 特定 年 代 发 布 的 电影 。XQuery 
可 以 用 来 组 合 有 关 演 员 的 信息 ， 假 设 XML 电 影 数据 库 包 含 电影 和 演员 “文档 ”。 一 个 例子 可 以 
是 ， 查 找 澳大利亚 出 生 的 明星 演员 演出 的 电影 。 

复杂 的 数据 库 查询 语言 ， 例 如 XQuery， 专 注 于 数据 的 结构 ， 组 合 那 些 文本 搜索 应 用 一 般 
很 少 使 用 的 数据 。 针 对 XML 文档 数据 库 查 询 中 哪些 部 分 有 用 的 扩展 研究 ， 出 现在 INEX 项 目 
中 S。 这 个 项 目 采用 了 TREC 中 搜索 评测 的 方法 。 这 意味 着 定义 了 许多 XML 搜 索 任 务 ， 并 且 为 
了 测试 这 些 任务 ， 构 造 了 适当 的 测试 数据 集 。 这 些 评测 中 的 一 类 查询 叫做 内 容 和 结构 
(content-and-structure, CAS) 查询 。 这 些 查 询 包含 一 个 话题 的 描述 和 XML 结 构 中 的 明确 引用 。 
CAS 查 询 使 用 的 简化 版 的 XPath 叫 做 NEXIS 。 这 种 查询 语言 中 ， 两 个 重要 的 结构 是 路 径 
(paths) 和 路 径 过 滤 (path filters)。 路 径 是 XML 树 形 结构 中 对 元 素 (或 者 节点 ) 的 限定 。 一 
些 NEXI 的 路 径 限定 例子 如 下 : 

/HAWB :XML 树 中 A 元 素 的 任何 后 代 元 素 B 候 。 后 代 元 素 被 父 元 素 包含 。 

HAP ， 一 个 A 元 素 的 任意 后 代 元 素 。 

路 径 过 滤 用 于 限制 结果 满足 文本 或 者 数值 约束 。 例 如 : 


HAfabout(./B,“topic”)] ，A 元 素 包 含 关 于 (about)“topic” 的 8 元 素 。about 谓 词 没 有 定义 ， 但 是 可 以 通过 
一 些 类 型 的 检索 模型 实现 。.//B 是 一 条 检索 路 径 。 
HALUB = 777] : A 元 素 包含 数值 等 于 777 的 B 元 素 。 


早先 INEX 实 验 中 使 用 的 数据 库 由 计算 机 科学 领域 的 科技 文章 组 成 。 下 面 是 一 些 CAS 查 询 
的 样 例 : 


Harticle[.//fm/yr < 2000]//sec[about(., “search engines” )] 
- 查找 2000 年 前 发 表 的 包含 话题 “search engines” 相 关 章 节 的 文章 (fMRI). 


/larticle[about(.//st,+comparison) AND about (.//bib, “machine learning” )] 
- 查找 章节 标题 包含 词语 “comparison” 并 且 参 考 书目 中 提 到 “machine learning” 的 文章 。 


/f*{about:(.//fgc, corba architecture) AND about(.//p, figure corba architecture)] 
- 查找 任何 元 素 包含 图 片 标题 关于 “corba architecture” 并 且 一 个 段落 提 到 “figure corba architecture” HJ 
文章 。 


虽然 这 些 查 询 看 起 来 是 合理 的 ， 但 是 INEX 实 验 和 前 期 的 研究 表明 ， 人 们 不 会 在 他 们 的 查 
询 中 使 用 结构 化 线索 ， 或 者 如 果 他 们 被 迫 需要 做 的 话 ， 一 般 来 说 不 能 正确 使 用 。 本 质 上 没有 


昌 XML 检 索 评价 计划 (INitiative for the Evaluation of XML Retrieval) , http://inex.is.informatik. 
uniduisburg.de/。 

© ee XPath (Narrowed Extended XPath) (Trotman & Sigurbjörnsson, 2004), 

全 ”这 意味 着 一 个 元 素 从 <B> 标 签 开 始 ， 结 束 于 </B>。 
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证 据 表 明 ， 用 户 查 询 中 的 结构 化 能 提高 搜索 效率 。 由 于 这 个 原因 ，INEX 项 目 已 经 更 加 专注 于 
只 有 内 容 的 查询 ， 就 是 和 贯穿 本 书 讨论 的 查询 一 样 ， 并 且 基 于 自动 技术 来 对 XML 元 素 排序 而 
不 是 对 文档 进行 处 理 。 : 

小 结 一 下 ， 结 构 化 对 于 高 效 排序 中 定义 特征 是 很 重要 的 部 分 ， 但 不 是 对 于 用 户 查 询 。 在 
诸如 网 络 搜索 的 应 用 中 ， 相 对 简单 的 用 户 查 询 被 转换 为 包含 很 多 特征 的 查询 ， 包 括 基于 文档 
结构 的 特征 。Galago 查 询 语言 是 能 用 于 指定 用 于 排序 的 特征 的 例子 语言 ， 用 户 查 询 能 被 转换 
到 Galago 查 询 中 。NEXI 中 采用 的 绝 大 多 数 结构 化 线索 ， 都 能 采用 Galago 整 合 到 特征 中 。 

数据 库 系 统 被 用 于 很 多 搜索 应 用 。 但 是 ， 这 些 应 用 的 需求 和 那些 典型 的 数据 库 应 用 不 一 
样 ， 例 如 相关 排序 。 这 导致 存储 系统 从 数据 库 模 式 和 查询 语言 方面 发 展 ， 这 很 简单 ， 但 也 是 
有 效 、 可 靠 和 可 扩展 的 。 

11.4.2 实体 搜索 

除了 挖掘 文档 中 已 经 存在 的 结构 ， 还 可 以 通过 分 析 文 档 内 容 来 创建 结构 。 在 第 4 章 介绍 的 
信息 抽取 技术 ， 能 够 用 来 识别 文本 中 的 人 物 、 机 构 和 地 点 。 实 体 搜索 使 用 这 种 结构 来 对 一 个 
查询 返回 排序 的 实体 列表 ， 而 不 是 文档 列表 。 为 了 做 到 这 一 点 ， 每 个 实体 的 表示 都 基于 文档 
文本 中 这 些 实体 周围 出 现 的 词语 生成 。 构 建 这 些 表 示 最 简单 的 方法 就 是 ， 通 过 累积 实体 每 次 
出 现 的 一 个 特定 文本 窗口 (例如 20 个 词语 ) 内 的 文本 来 创建 “ 伪 文 档 ”。 例 如 ， 如 果 机 构 实体 
“California institute of technology” 在 一 个 语料库 中 出 现 了 65 次 ， 那 么 这 65 次 出 现 周围 的 20 个 
词语 中 的 每 个 词语 ， 都 会 被 累计 到 一 个 伪 文 档 表 示 中 。 这 种 方法 用 在 早期 实体 搜索 的 研究 中 ， 
例如 Conrad and Utt (1994)。 这 些 大 量 的 基于 词语 的 表示 ， 能 够 被 存储 在 搜索 引擎 中 并 随后 用 
来 根据 查询 排序 实体 。 

图 11-4 展 示 了 Conrad 论 文中 实体 检索 的 一 个 例子 。 对 于 这 个 查询 排序 靠 前 的 机 构 名 ， 会 
和 语料库 中 例如 “biomedical” 等 词语 共同 出 现 很 多 次 。 


Query: 
biomedical research and technology 


Top Ranked Results: 


minneapolis research 

signs inc. 

syntex 

california institute of technology 
massachusetts institute of technology 
therapeutic products 





11-4 TREC 华 尔 街 日 报 1987 年 数据 集 上 实体 搜索 机 构 名 时 的 例子 


通过 目标 词语 或 短语 的 上 下 文 或 局 部 文本 中 出 现 的 词语 来 创建 表示 的 方法 ， 已 经 用 来 在 
查询 扩展 时 自动 构建 检索 词语 和 短语 的 辞典 (Jing & Croft, 1994) 。 有 趣 的 是 ， 它 也 用 于 认 知 
科学 家 ， 作 为 语义 记忆 模型 的 基础 (Lund & Burgess, 1996) 。 

最 近 ， 许 多 关于 实体 搜索 的 研究 都 集中 在 寻找 特定 领域 或 主题 的 专业 人 士 的 方法 上 。 这 
个 任务 也 称 作 专家 搜索 ， 已 经 研究 了 一 段 时 间 ， 但 是 自从 2005 年 成 为 TREC 的 一 项 子 任务 后 ， 
它 才 被 更 加 细致 地 评测 。 这 个 研究 主要 的 贡献 在 于 基于 语言 模型 方法 发 展 了 对 于 实体 (或 者 
专家 ) 的 概率 检索 模型 (Balog et al., 2006), 一般 地 ， 给 定 一 个 文档 集合 D 和 查询 9， 可 以 根 
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据 实体 和 查询 词 项 的 联合 分 布 P(e, 9g) 来 对 候选 实体 e 排 序 。 这 个 分 布 可 以 表示 为 ; 
Peg) = X Pegi DPA) 


如 果 和 集中 讨论 P(e, qd, KEATAS REAA : 
Ple,gld) = P(qle,d)P(eld) 

其 中 P(elq) 对 应 于 寻找 提供 关于 实体 信息 的 文档 ，P(gle, 中 涉及 那些 关于 查询 的 文档 中 的 实体 
排序 。 这 些 概 率 不 同 的 估计 方法 会 得 到 不 同 的 实体 排序 算法 。 如 果 假 定 给 定 一 篇 文档 ， 词 语 
和 实体 是 相互 独立 的 ， 即 P(e, qld) = P(gqld)P(eld)， 那 么 这 两 个 部 分 就 分 别 通过 将 q 和 e 用 于 概率 
检索 实现 分 开 计 算 。 但 是 ， 这 个 假设 忽略 了 出 现在 同一 文档 中 的 词语 和 实体 之 间 的 关系 ( 通 
过 上 下 文 向 量 方法 来 获得 ) ， 并 且 会 使 这 种 方法 遇 到 有 效 性 质疑 。 相 反 ， 可 以 使 用 文档 中 查询 
词 项 和 实体 的 邻近 贡献 来 估计 ec 和 9 之 间 的 关联 强度 。 实 现 此 目的 的 一 种 方法 是 ， 假 设 查询 由 
一 个 词 项 构成 ， 并 且 文 档 中 只 有 一 个 实体 出 现 ， 就 可 以 估计 Pale, DA: 


N 
Pile, d= Y bli OKA. 9 


其 中 6 是 指示 函数 ， 当 出 现在 4 中 位 置 的 词 项 为 4 时 ， 结 果 为 1， 和 否则 为 0，k 是 一 个 邻近 核 函 
数 ，Z= ka o 是 一 个 归 一 化 常量 ，N 是 文档 的 长 度 。 
如 果 查 询 含有 多 个 词 项 ， 可 以 计算 排序 得 分 如 下 ; 


rank 
P(e, q) = P(q,; le, d)P(eld) 
3 | 


Petkova 和 Croft (2007) 证 明 ， 最 有 效 的 核 函 数 是 高 斯 核 ， 如 表 9.1 所 示 ， 也 就 是 
' exp- llq-el? /20° 
其 中 g~e 是 查询 gq 和 实体 e 之 间 的 词语 距离 。 这 篇 论文 同时 证 明 ， 对 于 专家 搜索 ， 精 确 的 命名 实 
体 识 别 在 性 能 上 并 没有 巨大 的 影响 ， 并 且 使 用 简单 的 诸如 #0od:2 (<first name><last name>) 的 
Galago 查 询 ， 就 可 以 很 好 地 估计 人 物 实 体 的 概率 P(eld)。 


11.5 问题 越 长 ， 答 案 越 好 


近来 在 电影 或 电视 上 看 到 的 关于 未 来 的 所 有 幻想 中 ， 搜 索引 擎 已 经 演变 为 类 似 于 人 的 能 
够 回答 关于 任何 主题 的 复杂 问题 的 助理 ， 例 如 《2001:， 太空 漫游 》 中 的 HAL9000 计 算 机 系统 
RS (Bi) AIPA, BRR BRET HABE BRAT, ， 但 是 距 
离 实现 这 些 智能 助理 的 能 力 ， 仍 然 还 有 很 长 的 距离 。 一 个 明显 的 差异 就 是 ， 网 络 搜索 引擎 一 
般 都 使 用 较 少 数量 的 关键 词 ， 而 不 是 采用 自然 语言 表达 的 实际 问题 。 在 第 10 章 中 ， 描述 了 基 
于 社区 的 问答 系统 的 用 户 如 何 采 用 句子 甚至 段落 来 描述 他 们 的 信息 需求 。 因 为 他 们 知道 ， 如 
果 问 题 被 很 好 描述 的 话 ， 其 他 人 就 会 阅读 并 给 出 更 好 的 回复 。 相 比 而 言 ， 同 样 长 的 查询 从 网 
络 搜索 引擎 那里 一 般 会 获得 非常 差 的 回复 ， 或 者 根本 没有 人 回答 。 人 们 被 强制 将 他 们 的 问题 
翻译 为 一 个 或 者 多 个 恰当 的 关键 词 来 获得 合理 的 结果 列表 。 信 息 检 索 研 究 的 一 个 长 期 目标 ， 
就 是 开发 检索 模型 来 从 更 长 更 具体 的 查询 中 获得 精确 的 结果 。 

在 第 1 章 中 简要 提 到 并 在 第 10 章 提 到 的 自动 问答 任务 ， 包 括 对 用 户 的 查询 提供 一 个 具体 的 
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答案 ， 而 不 是 一 堆 文档 的 排序 。 这 项 任务 在 自然 语言 处 理 和 人 工 智能 领域 已 经 有 很 长 的 历史 。 
早期 的 自动 问答 系统 依赖 于 对 非常 特定 的 小 规模 领域 进行 详细 的 逻辑 表示 ， 例 如 篮球 、 月 亮 
岩石 或 者 玩具 积木 。 近 期 重点 转移 到 信息 检索 方面 ， 这 个 任务 包括 在 大 规模 文本 语 料 上 识别 
并 抽取 答案 。 

图 11-5 展 示 了 从 文本 语料库 上 检索 答案 的 自动 问答 系统 的 典型 模块 。 这 样 的 系统 处 理 的 
问题 范围 往往 限定 在 那些 基于 事实 的 简单 而 且 答案 简短 的 问题 ， 例 如 谁 、 哪 里 、 何 时 等 以 人 
名 、 机 构 名 、 地 点 和 日 期 为 答案 的 问题 。 下 面 的 问题 是 TREC 自 动 问答 评测 中 的 问题 样 例 S: 

BRAT RR? 

什么 是 帝王 谷 ? 

圣 海伦 火山 最 近 一 次 大 爆发 是 什么 时 候 ? 


语料库 /互联 网 
问题 分 析 / 
分 类 


图 11-5 自动 问答 系统 框架 


当然 ， 还 有 其 他 类 型 的 基于 事实 的 问题 可 能 被 问 到 。 它 们 可 以 采用 很 多 种 方式 被 问 及 。 
系统 中 的 问题 分 析 和 分 类 模块 的 任务 ， 就 是 根据 期 望 的 答案 类 型 对 问题 分 类 。 对 于 TREC 问 答 
的 问题 ， 常 用 的 一 种 问题 划分 包括 31 个 不 同 的 主要 类 别 8。 许 多 都 对 应 于 文本 中 能 自动 识别 
的 命名 实体 ( 见 第 4 章 )。 表 11-2 给 出 了 这 些 类 别 中 每 种 问题 在 TREC 中 的 样 例 ， 由 于 问题 的 多 
种 形式 ， 问 题 分 类 是 一 个 比较 难 的 任务 。 例 如 ， 问题 词 what 就 可 以 用 到 很 多 种 不 同类 型 的 问 
题 中 。 

问题 分 析 和 分 类 得 到 的 信息 用 于 答案 选择 模块 ， 以 在 候选 文本 段落 中 识别 答案 。 这 种 答 
案 往往 是 句子 。 候 选 的 文本 段落 是 由 从 问题 生成 的 查询 来 进行 段落 检索 的 模块 获得 的 。 文 本 
段落 是 从 特定 的 语 料 或 者 互联 网 中 检索 得 到 的 。 在 TREC 自 动 问答 实验 中 ， 候 选 答案 段落 从 
TREC 新 闻 语 料 中 检索 得 到 。 互 联网 常常 被 用 来 作为 一 种 额外 资源 。 许 多 自动 问答 系统 中 的 段 
落 检索 模块 都 是 简单 地 查找 那些 包含 问题 中 所 有 非 停 用 词 的 段落 。 但 是 ,一般 来 说 ， 段 落 检 
索 类 似 于 其 他 类 型 的 检索 。 因 为 与 好 的 段落 相关 的 特征 可 以 结合 起 来 ， 获 得 有 效 的 排序 。 这 
类 特征 可 以 基于 问题 分 析 ， 包 含 和 问题 类 别 相关 的 命名 实体 的 文本 段落 ， 如 果 同 时 包含 重要 
的 问题 词 ， 就 显然 应 该 被 排 在 前 面 。 

_ 例 如， 对 于 问题 “where is the valley of the kings”, 那些 包含 标记 为 配置 并 含有 词语 
“valley”@ 和 “kings” 的 甸子， 应 恋 被 优先 考虑 。 一 些 系统 识别 与 问题 类 别 相关 的 、 可 能 作为 
答案 的 文本 模板 ， 通 过 使 用 文本 挖掘 技术 对 互联 网 数据 处 理 得 到 或 者 直接 就 是 预定 义 的 规则 。 
例如 ，<location> 中 的 模板 <question-location> 常 被 用 来 寻找 答案 段落 。 在 这 种 情况 下 的 
question-location 就 是 “valley of the kings”。 这 种 模板 的 存在 应 该 可 以 改进 文本 段落 的 排序 。 


问题 





答案 特征 


© TREC 自 动 问答 的 问题 来 自 于 大 量 搜索 应 用 的 查询 日 志 (Voorhees & Harman, 2005), 
四 “这 个 问题 分 类 是 BBN 建 立 的 。 这 个 分 类 和 其 他 内 容 在 Metzler and Croft (2005a) 中 有 讨论 。 
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对 于 排序 段落 ， 另 外 一 种 被 证 明 有 效 的 特征 是 在 诸如 Wordnet 等 辞典 中 的 相关 词语 。 例 如 ， 使 
用 Wordnet 关 系 ， 如 当 考 虑 问题 “who manufactures magic chef appliances.” 的 段落 时 ， 
“fabricates”、“constructs” 和 “makes” 等 词语 可 以 和 “manufacture” 相 关 。 基 于 特征 的 线性 
检索 模型 提供 了 合适 的 框架 来 组 合 与 答案 段落 相关 的 特征 ， 并 学 习 有 效 的 权 值 。 

最 后 一 步 ， 从 文本 段落 中 选择 答案 可 以 溢 在 地 包含 比 排序 文本 段落 更 偏 语言 学 的 分 析 和 
推理 。 但 是 ， 绝 大 多 数 情况 下 ， 自 动 问 答 系 统 的 用 户 都 希望 看 到 答案 的 上 下 文 ， 甚 至 是 多 个 
答案 ， 以 便于 验证 答案 可 能 是 正确 的 ， 或 者 可 能 决定 哪个 是 最 佳 答 案 。 例 如 ， 对 于 帝王 谷 
(the Valley of the Kings) 的 问题 ， 系 统 可 能 返回 “Egypt” 作 为 答案 。 但 是 一 般 来 说 ， 更 有 用 
的 是 返回 段落 “The Valley of the Kings is located on the West Bank of the Nile near Luxor in 
Egypt” 。 从 这 个 角度 来 说 ， 可 以 认为 搜索 引擎 需要 对 不 同类 型 的 查询 提供 一 系列 反馈 MAE 
注 的 文本 段落 到 整个 文档 。 更 长 更 精确 的 问题 应 该 产生 更 准确 集中 的 反馈 。 这 在 面向 事实 的 
问题 实例 中 ， 一 般 来 说 是 正确 的 ， 例 如 表 11-2 中 的 那些 问题 。 


表 11-2 TREC 自 动 问答 问题 样 例 及 其 对 应 的 问题 类 型 





问题 样 例 问题 类 型 
What do you call a group of geese? Animal 
Who was Monet? Biography 
How many types of lemurs are there? Cardinal 
Whiat is the effect of acid rain? Cause/Effect 
What is the street address of the White House? Contact Info 
Boxing Day is celebrated on what day? Date 
What is sake? Definition 
Whiat is another name for nearsightedness? Disease 
What was the famous battle in 1836 between 
Texas and Mexico? Event 
What is the tallest building in Japan? Facility 
What type of bridge is the Golden Gate Bridge? Facility Description 
What is the most popular sport in Japan? Game 
What is the capital of Sri Lanka? Geo-Political Entity 
Name a Gaelic language. Language 
What is the world’s highest peak? Location 
How much money does the Sultan of Brunei have? Money 
Jackson Pollock is of what nationality? Nationality 
Who manufactures Magic Chef appliances? Organization 
What kind of sports team is the Buffalo Sabres? Org. Description 
What color is yak milk? Other 
How much of an apple is water? Percent 
Who was the first Russian astronaut to walk in space? Person 

\ What is Australia’s national flower? Plant 

What is the most heavily caffeinated soft drink? Product 
What does the Peugeot company manufacture? Product Description 
How far away is the moon? Quantity 
Why can’t ostriches fly? Reason 
‘What metal has the highest melting point? Substance 
What time of day did Emperor Hirohito die? Time 
What does your spleen da? Use 
What is the best-selling book of all time? Work of Art 
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自动 问答 系统 中 用 到 的 技术 展示 了 句法 和 语义 特征 是 如 何 用 来 帮助 一 些 查 询 获 得 更 加 淮 
确 的 答案 的 。 但 是 这 些 技术 不 能 解决 信息 检索 中 更 加 困难 的 挑战 。 例 如 一 个 TREC 查 询 为 
“Where have dams been removed and what has been the environmental impact?” 看 起 来 像 是 基 
于 事实 的 问题 ,但 是 答案 需要 比 一 个 地 点 列表 或 者 句子 排序 更 具有 广泛 性 。 另 一 方面 ， 使 用 
自动 问答 技术 识别 不 同 的 “dam removal” 文 本 表达 式 ， 应 该 有 益 于 对 答案 段落 或 者 文档 进行 
排序 。 类 似 地 ，TREC 查 询 “What is being done to increase mass transit use?” 显然 不 是 基于 事 
实 的 问题 ， 也 可 能 从 识别 关于 “use of mass transit” 的 讨论 的 技术 中 受益 。 但 是 ， 这 些 渤 在 的 
益处 尚未 在 检索 实验 中 被 验证 。 这 表明 ， 将 这 些 技 术 应 用 到 大 量 查询 中 ， 还 有 重要 的 技术 问 
题 。 搜 索引 擎 目前 依赖 于 用 户 学 习 ， 基 于 他 们 的 经 验 来 提交 例如 “mass transit” 的 查询 ， 而 
不 是 更 精确 的 问题 。 


11.6 词语、 图片 和 音乐 


虽然 信息 检索 通常 专注 于 文本 ， 但 是 人 们 查找 的 许多 信息 是 图 片 、 视 频 或 者 音频 等 形式 ， 
尤其 是 在 互联 网 上 查找 时 。 网 络 搜索 引擎 和 大 量 其 他 网 站 ， 提 供 了 关于 图 片 和 视频 的 搜索 ， 
在 线 音乐 商店 是 查找 音乐 的 非常 流行 的 方式 。 所 有 这 些 服务 都 是 基于 文本 的 ， 依 赖 于 标题 、 
说 明 、 用 户 提 交 的 “标签 ”和 其 他 相关 文本 ， 以 便 为 搜索 创建 非 文本 媒体 的 表示 。 这 种 方法 
很 有 效 ， 也 是 相对 直接 的 实现 方式 。 但 是 ， 很 多 情况 下 ， 没 有 任何 相关 的 文本 ， 或 者 文本 不 
能 反映 被 表示 对 象 的 重要 方面 。 例 如 ， 许 多 视频 共享 网 站 上 的 视频 商店 ， 没 有 好 的 文本 描述 ， 
并 且 由 于 视频 太 多 ， 用 户 的 标签 也 不 能 解决 这 个 问题 。 另 外 一 个 例子 是 ， 在 搜索 特定 曲调 时 ， 
标题 不 能 提供 待 检 索 音 乐 文件 的 恰当 描述 。 基 于 这 些 原 因 ， 研 究 人 员 一 直 在 对 非 文 本 媒体 开 
发 基于 内 容 的 检索 技术 。 

一 些 非 文 本 媒体 使 用 词语 来 传达 信息 ， 可 以 转换 为 文字 。 例 如 ， 光 学 字符 识别 (Optical 
character recognition, OCR) 技术 就 用 来 将 包含 手写 或 打印 文本 的 扫描 文档 转换 为 机 器 可 读 的 
文本 。 语 音 识 别 技术 用 来 将 录制 好 的 语音 (或 者 发 声 文档 ) 转换 为 文本 。OCR 和 语音 识别 
都 会 产生 “噪声 ”文本 ， 也 就 是 说 ， 相 对 于 原始 的 打印 文本 或 者 语音 脚本 ， 输 出 文本 可 能 相 
对 会 有 错误 。 图 11-6 展 示 了 两 个 OCR 产生 的 错误 样 例 。 两 个 例子 中 ，OCR 的 输出 都 来 自 于 标 
准 的 OCR 软件 。 第 一 个 例子 基于 文本 段落 ， 由 文字 处 理 软件 创建 、 打 印 ， 然 后 被 复印 了 很 多 
次 (为 了 降低 质量 ) ， 并 最 终 被 OCR 扫描 。 输 出 结果 包含 少量 的 错误 ， 但 是 一 般 来 说 ， 对 高 质 
量 的 打印 文本 ，OCR 的 错误 率 是 很 低 的 8 。 第 二 个 例子 使 用 了 较 低 质量 的 输入 ， 通 过 扫描 一 
份 很 早 的 会 议论 文 的 影印 版 来 创建 。 在 这 种 情况 下 ，OCR 输 出 包含 明显 的 错误 ， 带 有 例如 
“sponsorship” 和 “effectiveness” 等 根本 不 可 读 的 词语 。 注 意 ，OCR 错 误 出 现在 字符 层面 。 
换 名 话说， 错误 是 单独 字符 混 诡 的 结果 ， 并 导致 输出 不 正确 的 字符 。 

图 11-7 展 示 了 一 段 新 闻 广播 通过 高 质量 语音 识别 软件 中 的 输出 结果 。 绝 大 多 数 词语 都 被 
正确 识别 。 但 是 ， 当 系统 遇 到 以 前 没有 见 过 的 词语 时 〈 叫 做 例外 词汇 ， 或 者 OOV ) ， 就 会 产生 
一 些 明 显 的 错误 。 许 多 OOV 词 语 都 是 人 名 或 者 机 构 名 ， 例 如 这 个 例子 中 的 “Pinochet”。 已 经 
有 大 量 的 研究 致力 于 此 问题 。 注 意 ， 语 音 识 别 错 误 倾向 于 在 输出 中 创建 新 的 词语 ， 例 如 例子 
中 的 “coastal fish”， 这 是 因为 ， 软 件 试 图 寻找 已 知 的 词语 来 最 佳 地 满足 声音 模板 和 语言 模型 。 

O ”有 时 叫做 自动 谱 音 识别 (Automatic Speech Recognition, ASR), 

O “质量 ”是 指 图 片 质 量 ， 根 据 对 比 度 、 锐 利 度 、 背 景 纯净 度 来 考察 。 
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这 种 类 型 的 错误 和 OCR 中 字符 级 九 的 错误 都 会 潜在 地 降低 搜索 的 效果 。 


Original: 
The fishing supplier had many items in stock, including a large variety of 
tropical fish and aquartums of ali sizes. . 

OCR: 
The fishing supplier had many items in stock, including a large variety of 
tropical fish and aquariums ot aH sizes~ 


Original: 
This work was carried ont under the sponsorship of N 
Grants NSF-ON-S80 (Studies in Indexing Depth and Re- 


trieval Effectivencss) and K&Y-GN-482 CRecuirements Study for 
Catalogs). 

OCR: 
This work was carried out under the sp0iL!Orship 01 NatiolUi1 Setenee 
Foundation Orant. NSF-ON-SBO (Stud! .. in Indexing Depth and Retrieval 
Eficcth”ene&&) and NSF-ON-482 (Requirements Study lor Future ‘Catalogs) 





图 11-6 OCR 错误 的 例子 


Transcript: 
French prosecutors are investigating former Chilean strongman Augusto 
Pinochet. The French justice minister may seek his extradition from 
Britain. Three French families whose relatives disappeared in Chile 
have filed a Complaint charging Pinochet with crimes against humanity. 
The national court in Spain has ruled crimes committed by the 

, Pinochet regime fall under Spanish jurisdiction. 


Speech recognizer output: 

french prosecutors are investigating former chilean strongman of 
coastal fish today the french justice minister may seek his 

extradition from britain three french families whose relatives 
disappeared until i have filed a complaint charging tenants say with 
crimes against humanity the national court in spain has ruled crimes 
committed by the tennessee with james all under spanish jurisdiction 





图 11-7 语音 识别 器 错误 的 例子 


TREC 和 其 他 研讨 会 已 经 进行 了 许多 基于 OCR 和 ASR 数 据 的 评测 。 这 些 研究 显示 ， 检 索 的 
效果 一 般 不 会 受到 OCR 和 ASR 错 误 的 显著 影响 。 主 要 原因 是 数据 中 存在 的 大 量 元 余 性 被 用 于 
评价 。 例 如 ， 在 ASR 评 测 中 ， 经 常 出 现 许 多 相关 的 口语 文档 ， 每 个 文档 都 包含 对 于 查询 来 讲 是 
重要 的 词语 的 许多 实例 。 即 使 一 些 词语 实例 没有 被 识别 ， 其 他 实例 也 可 以 识别 。 另 外 ， 即 使 一 
个 查询 词 一 直 都 未 被 识别 ， 往 往 也 会 有 查询 中 的 其 他 词语 能 被 用 来 估计 相关 性 。 类 似 的 情况 发 
生 在 OCR 数据 上 。 一 些 词语 的 实例 在 扫描 文档 中 也 许 具 有 比 其 他 图 像 更 高 的 质量 ， 因 此 会 被 成 
功 识别 。 唯 一 使 DCR 和 ASR 错 误 都 显著 降低 效果 的 是 短文 档 ， 它 们 具有 很 小 的 宛 余 性 ， 具 有 较 
高 的 错误 率 。 字 符 n-gram 索 引 和 扩展 相关 词 项 等 技术 ， 能 够 改进 这 些 情 况 下 的 性 能 。 

相对 于 能 够 转换 为 噪音 文本 的 媒体 ， 基 于 内 容 的 图 片 检索 是 一 项 更 具有 挑战 性 的 难题 。 
能 够 在 图 像 中 抽取 到 的 特征 ， 例 如 颜色 、 纹 理 、 形 状 等 ， 相 对 于 词语 都 只 有 很 少 的 语义 内 容 。 
例如 ， 在 图 像 检索 应 用 中 被 用 到 的 一 个 普通 特征 就 是 色彩 直方 图 。 图 像 中 的 颜色 使 用 特殊 的 


所 ”也 叫做 基于 内 容 的 图 像 检索 (CBIR), 
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颜色 模型 来 表示 ， 例 如 RGB 模型 。RGB 模 型 将 颜色 表示 为 红 、 蓝 、 绿 的 混合 。 一 般 对 每 种 
颜色 都 有 256 种 值 (8 位 ) 。 图 像 的 色彩 直方 图 可 以 通过 一 轮 色彩 值 量化 来 降低 直方 图 中 可 能 的 
bin 的 数量 。 例 如 ， 如 果 RGB 数 值 量化 到 8 个 级 别 而 不 是 256 个 级 别 ， 可 能 的 颜色 组 合 数量 就 从 
256 x 256 x 256 降 低 到 8 x 8 x 8=512。 那 么 ， 对 图 像 中 的 每 个 像素 ， 颜 色 数值 对 应 的 bin 的 数量 
从 1 开始 增加 。 生 成 的 直方 图 可 以 用 来 表示 数据 集中 的 图 像 ， 并 且 可 以 用 于 索引 ， 实 现 快速 检 
索 。 给 定 一 个 新 的 图 像 作为 查询 ， 该 图 像 的 颜色 直方 图 可 以 用 来 和 图 像 数 据 集中 的 直方 图 采 
用 一 些 相 似 度 度量 的 方法 进行 比较 。 图 像 可 以 根据 这 些 相似 度 值 进行 排序 。 

图 11-8 展 示 了 两 幅 样 例 图 像 及 其 色彩 直方 图 。 这 种 情况 下 ， 直 方 图 是 基于 色调 值 的 (而 
不 是 RGB 值 ) ， 因 此 直方 图 中 的 顶峰 对 应 于 颜色 的 峰值 。 鱼 和 花 都 是 黄色 占 主导 ， 因 此 两 个 直 
方 图 中 在 频谱 的 那个 区 域 (在 左 侧 ) 具有 类 似 的 峰值 。 其 他 类 似 的 峰值 是 关于 绿色 和 蓝 色 的 。 


es ies ce ae 


. 图 11-8 两 幅 图 像 (一 条 鱼 和 一 条 红 花 ) 的 色彩 直方 图 。 水 平 轴 是 色调 值 


色彩 特征 对 于 寻找 色彩 相似 度 的 图 片 很 有 用 ， 例 如 日 落 的 图 片 。 但 是 两 幅 内 容 完 全 不 相 
同 的 图 片 ， 可 能 会 只 因为 它们 的 颜色 而 被 认为 非常 相关 。 例 如 ， 图 11-8 中 的 花 的 图 片 可 能 在 
与 鱼 的 图 片 比较 时 排序 非常 靠 前 ， 就 是 因为 直方 图 中 相似 的 峰值 。 寻 找 语义 相关 图 片 的 能 力 ， 
可 以 在 结合 色彩 特征 和 纹理 、 形 状 特征 后 得 到 改进 。 图 11-9 晨 示 了 基于 纹理 特征 的 (汽车 和 
KE) 图 像 检 索 的 例子 ， 以 及 基于 形状 特征 检索 的 例子 〈 商 标 ) 。 纹 理 被 广泛 地 定义 为 空间 的 
图 像 上 的 灰 阶 层次 安排 。 形 状 特征 描述 物体 边界 和 边缘 的 形式 。 虽 然 第 二 个 例子 明显 说 明基 
于 纹理 的 相似 度 不 能 保证 图 像 语 义 相似 度 ， 但 是 样 例 显示 带 有 相似 外 貌 的 图 像 能 够 通过 使 用 
这 些 类 型 的 表示 来 找到 。 在 基于 文本 的 搜索 中 ， 排 序 靠 前 的 文档 虽然 不 相关 ， 但 是 可 以 被 用 
户 很 容易 的 理解 。 在 基于 内 容 的 图 像 检索 中 ， 例 如 图 11-9 中 的 猿 猴 的 检索 错误 ， 很 难 向 正在 
寻找 火车 图 像 的 用 户 解释 。 o. 

检索 实验 已 经 证 明 ， 最 有 效 的 融合 图 像 特 征 的 方式 就 是 概率 检索 模型 。 正 如 前 面 所 讨论 
的 ， 如 果 图 像 有 文本 说 明 或 者 用 户 标 签 ， 这 些 特 征 可 以 容易 地 加 入 到 排序 中 。 视 频 检索 除了 
具有 更 多 的 特征 外 ， 其 他 方面 与 图 像 检索 类 似 ， 例 如 相关 的 字幕 文本 或 者 从 语音 识别 生成 的 
文本 。 视 频 中 的 图 像 部 分 一 般 表 示 为 一 系列 关键 帧 图 像 。 为 了 生成 关键 帧 ， 视 频 首先 被 分 类 





日 另外 一 个 普通 模型 就 是 HSV (色调 、 饱 和 度 和 数值 ) 。 








284 l HU 


为 镜头 或 场景 。 一 个 视频 镜头 可 以 定义 为 一 个 具有 视觉 连贯 性 的 连续 帧 序列 。 边 界 可 以 通过 
视觉 不 连续 点 来 探测 ， 例 如 一 个 形状 连续 的 两 帧 相似 度 降低 。 给 定 分 割 好 的 镜头 ， 一 个 单独 
帧 《图 片 ) 被 选 为 关键 帧 。 这 可 以 通过 简单 地 选择 每 个 镜头 中 的 第 一 帧 ， 或 者 基于 视觉 相似 
度 和 动作 分 析 的 更 复杂 的 技术 来 选择 。 图 11-10 展 示 了 从 一 段 新 闻 会 议 视频 中 抽取 到 的 四 个 关 
键 帧 样 例 。 





图 11-9 三 个 基于 内 容 的 图 像 检索 例子 。 前 两 个 例子 的 数据 集 由 1560 张 汽车 、 Ali, SRA 
多 种 物体 构成 。 最 后 一 个 例子 来 源 于 一 个 有 2048 个 商标 图 案 的 数据 集 。 在 每 种 情况 中 ， 
最 左边 的 图 像 都 是 查询 


图 11-10 从 TREC 视 频 剪 辑 中 抽取 到 的 四 个 关键 帧 


已 经 讨论 的 图 像 检 索 技 术 都 假设 查询 是 一 幅 图 像 。 在 许多 应 用 中 ， 用 户 更 愿意 采用 文本 
查询 来 描述 他 们 查询 的 图 片 。 词 语 不 能 和 从 图 像 中 衍生 出 来 的 特征 直接 进行 比较 。 但 是 ， 最 
近 的 研究 表明 ， 给 定 足 够 的 训练 数据 ， 概 率 检索 模型 能 够 学 习 得 到 词语 或 者 类 别 与 基于 图 像 
的 特征 的 联系 ， 并 且 事 实 上 实现 了 自动 的 图 像 标注 。 使 用 这 个 模型 时 ， 有 两 个 实际 问题 需要 
解决 : 

“给 定 一 幅 没 有 文本 标注 的 图 像 ， 如 何 能 够 自动 给 那 幅 图 像 赋 予 有 含义 的 关键 词 ? 

。 给 定 文本 查询 {fq, …g}， 如 何 检索 和 这 个 查询 相关 的 图 像 ? 

7.3.2 节 描述 的 相关 性 模型 被 证 明 能 对 这 个 任务 有 效 。 取 代 通 过 观察 词语 w 对 查询 词 估计 联 
合 概率 P(w, q1,…g) 的 步骤 ， 相 关 性 模型 被 用 来 估计 P(w, ii,…i,)， 其 中 一 幅 图 像 假设 表示 为 一 
组 图 像 词 项 {ii, …i}。 这 种 方法 中 ， 图 像 词 项 的 “ 词 表 ”通过 使 用 图 像 分 割 和 聚合 类 似 的 区 
域 来 构建 e 。 作 为 例子 ， 在 一 个 包含 $000 幅 图 像 的 测试 语料库 中 ， 一 个 包含 00 个 图 像 词 项 的 
词 表 被 用 来 表示 这 些 图 像 ， 每 个 图 像 被 1 ~ 10 个 词 项 描述 。 使 用 已 经 用 文本 标注 好 的 训练 图 像 


日 ”有 这 样 一 种 技术 ， 表 示 图 像 为 “ 滴 ”(blob) (Carson etal., 1999), 
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集 来 估计 联合 概率 ， 这 个 模型 能 用 来 回答 上 面 提 到 的 两 个 问题 。 为 了 对 文本 查询 返回 图 像 ， 
平面 是 一 个 类 似 于 伪 相 关 反馈 的 过 程 ， 

1) 使 用 文本 查询 来 对 包含 文本 标注 的 图 像 进行 排序 。 

2) 给 定 排序 靠 前 的 图 像 来 估计 图 像 词 表 联 合 概率 。 

3) 使 用 带 有 图 像 词 项 的 查询 扩展 来 对 那些 没有 文本 标注 的 图 像 进 行 重 排序 。 

还 有 一 种 办 法 是 ， 从 训练 集 上 估计 的 联合 概率 ， 可 以 用 来 对 那些 没有 标注 的 图 像 分 配 关 
键 词 。 图 11-11 展 示 了 采用 这 种 方法 标注 图 像 韵 例子。 用 于 描述 图 像 的 绝 大 多 数 词语 都 是 合理 
的 ， 但 是 对 能 的 图 片 的 标注 说 明 ， 骨 显 的 错误 也 二 能 会 产生 。 使 用 自动 标注 技术 的 检索 实验 
证 明 ， 这 种 方法 是 有 前 途 的 ， 能 够 在 一 些 应 用 中 增加 图 像 和 视频 的 检索 性 能 。 主 要 的 问题 是 ， 
什么 样 的 文本 和 图 像 词 表 的 类 型 和 大 小 最 有 效 。 





狐狸， 森林 ， 
河流 ， 水 





图 11-11 自动 文本 标注 图 像 的 例子 


相 比 于 图 像 ， 音 乐 是 一 种 有 较 少 关联 词语 的 媒体 。 图 像 至 少 能 够 用 文本 描述 ， 自 动 标注 
技术 能 用 来 通过 文本 查询 进行 检索 。 但 是 ， 除 了 标题 、 作 曲 家 、 演 奏 家 、 歌 词 ， 很 难 使 用 词 
语 来 描述 一 段 音乐 。 音 乐 具有 很 多 用 于 不 同 目的 的 表示 。 图 11-12 展 示 了 巴赫 作曲 的 “十 号 赋 
格 ” 的 三 种 表示 。 第 一 种 是 音乐 性 能 的 音频 信号 。 这 就 是 被 压缩 存储 为 MP3 格 式 的 内 容 。 第 
二 种 是 MIDIe 表 示 ， 提 供 了 音乐 中 “事件 ”的 数字 规范 ， 例 如 音乐 笔记 中 的 音 高 、 强 度 、 持 
续 时 长 、 速 率 。 第 三 种 就 是 传统 的 乐谱 ， 包 含 最 详细 的 信息 ， 特 别 是 和 弦 音 乐 组 成 的 多 个 部 
分 或 声音 。 

很 多 方法 已 经 为 搜索 这 些 基 本 表示 建立 了 索引 词 项 。 在 音频 的 情况 中 ， 最 成 功 的 就 是 通 
过 散 列 音 乐 的 表示 来 作为 “签名 ”的 技术 。 例 如 ， 签 名 可 以 基于 音频 在 一 个 时 间 片 上 的 声 谱 
图 上 的 峰值 来 创建 9 。 这 种 类 型 的 索引 ， 是 基于 使 用 手机 捕获 的 简短 录音 来 识别 音乐 服务 的 
基础 (例如 Wang, 2006) 。 

另外 一 种 流行 的 基于 内 容 的 音乐 检索 方法 ， 就 是 哼 唱 式 查 询 (query-by-bumming)。 这 种 
类 型 的 系统 中 ， 用 户 逐 字 地 唱 、 哼 或 者 演奏 一 首 乐 曲 ， 在 一 个 音乐 数据 集 上 就 会 搜索 类 似 的 
曲子 。 这 种 类 型 的 搜索 基于 具有 单独 旋律 〈 单 声 道 ) 的 音乐 。 查 询 被 转换 为 乐曲 的 一 种 表示 ， 
由 序列 音符 、 相 对 音 高 和 音符 间 的 停顿 构成 。 数 据 集中 的 音乐 必须 也 被 转换 为 同样 类 型 的 表 
示 ， 最 容易 的 方式 就 是 使 用 MIDI 作 为 起 始点 。 查 询 将 会 是 相关 乐曲 有 噪音 的 表示 ， 所 以 发 展 
出 了 许多 用 于 文本 检索 的 检索 模型 来 满足 这 个 任务 ， 例 如 n-gram 匹 配 和 语言 模型 (Dannenberg 
et al., 2007) 。 基 于 概率 模型 的 复 调 (polyphonics) 音乐 搜索 技术 ， 同 样 用 来 检索 传统 乐谱 的 
音乐 。 

总 结 一 下 ， 基 于 文本 检索 模型 的 搜索 技术 已 经 被 用 来 处 理 多 种 多 样 的 非 文 本 媒体 。 在 扫 


O RRAN (Musical Instrument Digital Interface, MIDI), 
O 声 谱 图 表示 音频 信和 号 在 给 定时 间 下 每 个 频率 上 的 能 量 和 振幅 。 








286 旬 ll 全 


描 文 档 和 音频 文档 的 情况 中 ， 检 索性 能 类 似 于 文本 文档 ， 因 为 OCR 和 语音 识别 工具 一 般 具 有 
较 低 的 错误 率 。 基 于 内 容 的 图 像 和 视频 检索 是 很 有 前 途 的 ， 但 是 这 些 媒体 的 搜索 应 用 必须 依 
赖 于 描述 和 用 户 标签 等 来 源 的 关联 文本 ， 以 达到 好 的 性 能 。 音 乐 难以 用 文字 来 描述 ， 但 是 有 
效 的 音乐 搜索 应 用 已 经 开发 出 来 ， OEY ees ena aaa mS 可 以 从 音频 
或 者 MIDI 表 示 中 衍生 出 来 。 





图 11-12 巴赫 的 “十 号 赋 格 ”的 三 种 表示 : 音频 、MHDI 和 传统 的 乐谱 


11.7 搜索 能 否 适用 于 所 有 情况 


那么 ， 搜 索 的 未 来 是 什么 ? 很 显然 ， 看 起 来 似乎 不 能 在 短期 内 建造 无 所 不 知 的 辅助 系统 。 
换 句 话说， 正如 前 面 讨 论 的 那样 ， 可 以 将 那 种 类 型 的 系统 作为 目标 ， 使 得 我 们 可 以 清楚 地 认 
识 到 有 目前 的 搜索 引擎 还 需要 走 多 远 。 对 搜索 和 性 能 的 认识 和 理解 在 稳步 提高 ， 尽 管 这 个 领域 
已 有 长 达 40 年 的 历史 。 有 趣 的 是 ， 这 导致 各 种 各 样 的 搜索 服务 ， 而 不 是 一 个 搜索 引擎 具有 越 
来 越 多 的 能 力 。 在 一 个 流行 的 网 络 搜索 引擎 主页 上 ， 可 以 找到 不 同 搜索 引擎 的 连接 ， 包 括 网 
页 、 图 像 、 博 客 、 地 图 、 学 术 论 文 、 产 品 、 专 利 、 新 闻 、 书 籍 、 金 融 信 息 、 视 频 、 政 府 文档 
和 照片 等 。 另 外 ， 这 里 有 不 同 工 具 的 链接 ， 包 括 桌面 搜索 、 企 业 搜索 和 广告 搜索 。 没 有 简单 
地 采用 同一 个 搜索 引擎 的 多 个 版 本 ， 显 然 阅 明 它 们 使 用 了 一 些 不 同 的 特征 、 排 序 算法 和 界面 。 
如 果 调 查 一 下 相关 文献 ， 关 于 搜索 的 一 个 更 大 范围 的 应 用 、 媒 体 和 方法 正在 被 发 展 和 评价 着 。 
一 个 稳 受 的 预测 是 ， 这 种 新 想法 的 扩展 将 继续 下 去 。 

虽然 专门 的 搜索 引擎 的 数量 在 激增 ,但 是 它们 之 间 一 致 的 共识 却 在 不 断 增 加 。 信 息 检索 
和 相关 领域 的 研究 人 员 ， 例 如 机 器 学 习 和 自然 语言 处 理 的 研究 人 员 ， 已 经 开发 了 与 表示 文本 
和 检索 过 程 模型 类 似 的 方法 。 这 些 方法 被 迅速 地 扩展 以 来 含 结构 化 数据 和 非 文本 数据 。 基 于 
新 应 用 或 者 数据 的 方法 共同 增强 了 这 种 观点 。 文 本 的 概率 模型 和 基于 特征 的 线性 模型 为 理解 
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搜索 提供 了 一 个 强大 而 有 效 的 框架 。 另 外 一 种 预测 就 是 ， 搜 索 的 这 种 隐 含 “理论 ”的 复杂 性 ， 
会 一 直 增 加 ， 并 在 一 定 范围 的 应 用 中 稳步 地 改进 效率 。 

这 种 “理论 ”会 怎样 影响 搜索 引擎 呢 ? 如 果 文 本 表示 和 其 他 类 型 的 数据 方面 能 够 更 加 一 
致 ， 针 对 问题 在 答案 排序 时 也 更 加 一 致 ， 那 么 开发 人 员 对 搜索 工具 将 会 更 加 熟悉 。 今 天 能 够 
使 用 的 开源 搜索 引擎 、 网 络 搜索 引擎 、 桌 面 搜索 引擎 和 企业 搜索 引擎 ， 都 使 用 了 不 同 的 词 项 
权重 、 不 同 的 特征 、 不 同 的 排序 算法 和 不 同 的 查询 语言 。 这 是 因为 在 做 这 些 事 情 时 ， 还 没有 
关于 正确 方式 的 一 致 性 ， 但 这 种 情况 会 改变 。 当 隐 含 模型 具有 更 好 的 一 致 性 时 ， 仍 然 会 有 多 
种 可 用 的 搜索 工具 ， 但 是 对 它们 之 间 的 选择 将 会 更 加 注重 基于 实现 的 效率 、 对 新 应 用 的 灵活 
性 和 适应 性 ， 以 及 扩展 到 由 模型 建议 的 更 复杂 算法 的 实现 工具 。 这 一 点 类 似 于 数据 库 系 统 发 
生 的 情况 ， 在 20 世 纪 80 年 代 ， 有 多 家 厂商 和 机 构 提供 了 基于 关系 模型 的 工具 。 

搜索 的 另外 一 方面 ， 也 是 在 本 书 中 讨论 不 充分 的 内 容 ， 就 是 用 户 和 搜索 引擎 之 间 交 互 的 
重要 性 ,以 及 在 这 个 过 程 中 用 户 任务 (task) 的 影响 。 尤 其 是 情报 科学 家 已 经 专注 于 这 些 方面 ， 
并 对 理解 人 如 何 查 找 相关 信息 进行 了 重要 的 观察 。 随 着 现在 社会 化 搜索 和 社会 化 网 络 应 用 的 
不 断 增 长 ， 交 互 的 研究 已 经 拓展 到 包括 用 户 之 间 以 及 用 户 和 搜索 引擎 之 间 。 在 不 久 的 将 来 ， 
可 以 期 望 见 到 比 现在 的 模型 更 加 复杂 的 融合 用 户 和 交互 的 搜索 理论 和 模型 。Fuhr (2008) 就 
是 这 类 研究 的 一 个 近期 例子 。 

不 计 其 数 的 电影 和 电视 都 对 未 来 有 一 个 普遍 的 幻想 ， 即 简单 的 自然 语言 输入 并 输出 多 媒 
体 信 息 。 这 种 接口 中 的 交互 是 基于 对 话 的 。 由 于 它 的 简单 性 ， 这 看 起 来 像 是 一 个 合理 的 长 期 
目标 。 在 当前 的 搜索 界面 中 ， 查 询 当然 简单 ， 但 是 正如 曾 讨论 的 那样 ， 还 需要 相当 大 的 努力 
来 将 这 些 简 单 的 查询 转换 为 那些 能 够 返回 相关 信息 的 查询 。 另 外 ， 那 些 很 小 的 对 话 或 者 交互 ， 
和 诸如 相关 反馈 等 更 加 简单 的 想法 ， 都 没有 使 用 。 更 糟糕 的 是 ， 由 于 有 许多 不 同 搜索 引擎 可 
用 ， 导 致 另外 一 个 决策 (到 底 用 哪个 搜索 引擎 ? ) 被 增加 到 交互 上 。 

搜索 引擎 公司 的 开发 人 员 及 研究 人 员 正 在 研究 改进 交互 的 技术 。 一 些 界 面 将 多 个 类 型 搜 
索引 擎 的 结果 放 到 一 个 单独 的 结果 中 显示 。 简 单 的 例子 包括 ， 当 查询 中 包括 一 个 地 址 时 ， 将 
一 个 地 图 搜索 引擎 的 结果 放置 到 结果 列表 的 顶端 ， 或 者 当 查 询 能 够 近似 匹配 一 篇 学 术 论文 标 
题 时 ， 在 结果 顶端 放置 一 个 论文 的 链接 。 但 是 ， 很 明显 ， 将 来 的 界面 必须 不 断 地 将 用 户 和 他 
们 的 知识 融入 到 搜索 过 程 中 。 

最 后 的 一 个 预测 就 是 自我 服务 。 搜 索 在 它 所 有 的 形式 中 ， 将 会 不 断 地 在 未 来 软件 应 用 中 
显示 其 非凡 的 重要 性 。 训 练 人 们 理解 搜索 引擎 中 的 原则 、 模 型 和 评价 技术 ， 是 不 断 提 高 他 们 
效果 与 效率 的 重要 部 分 。 现 在 还 没有 足够 的 课程 专注 于 此 主题 ， 但 是 通过 本 书 或 者 其 他 这 样 
的 书 ， 更 多 的 人 会 更 多 地 理解 搜索 。 
参考 文献 和 深入 阅读 

基于 特征 的 线性 检索 模型 在 Metzler 和 Croft (2007b) 中 有 所 讨论 。 这 篇 论文 包含 第 7 章 中 
讨论 过 的 其 他 模型 的 参考 文献 。 另 外 一 篇 最 近 讨 论 线性 模型 的 论文 是 Gao 等 (2005)。 

许多 词 项 依赖 模型 都 被 信息 检索 文献 提出 ， 尽 管 很 少 获得 有 趣 的 结果 。van Rijsbergen 
(1979) 提出 了 引用 最 多 之 一 的 依赖 模型 ， 是 贝 叶 斯 分 类 方法 在 检索 上 的 扩展 。 在 另外 一 篇 早 
期 的 论文 中 ，Croft 等 〈1991) 证 明 短语 和 词 项 邻近 性 可 以 通过 在 推理 互联 网 模型 中 假设 它们 
具有 依赖 性 ， 以 获得 潜在 的 性 能 改进 。Gao 等 (2004) 描述 了 一 个 依赖 模型 ， 证 明了 显著 的 性 
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能 改进 ， 尤 其 是 序列 依赖 (或 者 n-gram)。 最 近 在 大 规模 测试 集 上 的 其 他 研究 表明 ， 词 项 邻近 
性 信息 是 一 种 极其 有 用 的 特征 。 

在 信息 检索 的 角度 ， 处 理 数据 中 的 结构 开始 于 上 世纪 70 年 代 的 限定 在 布尔 域 上 的 商业 搜 
索 服 务 ， 例 如 MEDLINE 和 DIALOG。 在 20 世 纪 70 年 代 和 80 年 代 ， 大 量 论 文 描 述 了 使 用 关系 数 
据 库 的 搜索 引擎 实现 (例如 Crawford, 1981) 。 尽 管 对 象 管理 系统 被 成 功 地 应 用 于 支持 索引 
(例如 Brown et al., 1994)， 这 种 方法 的 效率 问题 一 直 持 续 到 20 世 纪 90 年 代 。 对 于 搜索 引擎 发 展 
出 数据 库 模 型 的 概率 扩展 的 重要 工作 ， 也 是 在 20 世 纪 90 年 代 完成 的 。Fuhr 和 他 的 向 事 描述 了 
一 种 概率 关系 代数 (Fuhr and Rélleke, 1997) 和 一 种 概率 数据 日 志 系 统 (Fuhr, 2000), 

在 商业 世界 中 ， 文 本 检索 已 经 在 20 世 纪 90 年 代 早期 成 为 诸如 Oracle 等 数据 库 系 统 中 的 标准 
操作 。 但 是 后 来 对 互联 网 数据 的 挖掘 以 及 不 断 增 加 的 基于 文本 的 互联 网 应 用 ， 使 得 那个 十 年 
高 效 处 理 文本 的 能 力 成 为 绝 大 多 数 信息 系统 中 的 重要 部 分 。 关 于 数据 库 和 搜索 引擎 在 数据 库 
角度 的 整合 的 有 趣 讨论 ， 可 以 在 Chaudhuri 等 (2005) 中 找到 。 

另外 一 条 重要 的 研究 路 线 就 是 ， 使 用 结构 化 数据 和 XML 文档 进行 检索 。 这 个 领域 早期 的 
工作 就 是 处 理 办 公文 档 (Croft, Krovetz, & Turtle, 1990) 和 文档 标记 (Croft et al., 1992) 。 对 
XML 数据 的 XQuery 查 询 语言 在 Chamberlin (2002) 中 有 介绍 。Kazai 等 (2003) 描述 了 对 
XML 文档 的 检索 方法 进行 评价 的 INEX 项 目 。Trotman 和 Lalmas (2006) 介绍 了 NEXI 语 言 。 

在 自动 问答 领域 ，Metzler 和 Croft (2005a) 给 出 了 问题 分 类 技术 的 综述 。 自 动 问 答 的 概 
PERRIER Ak, TR AIA! (Ittycheriah et al., 2001) 和 翻译 模型 (Echihabi and 
Marcu, 2003)。 二 者 都 非常 类 似 于 第 7 章 中 介绍 的 检索 模型 。 

Taghva (1996) 描述 了 第 一 组 全 方面 的 实验 ， 并 证 明 OCR 错 误 一 般 来 说 对 检索 效果 只 
有 很 小 的 影响 。Harding 等 人 (1997) 证 明了 在 显著 的 OCR 错 误 率 下 ，n-gram 是 如 何 进 行 有 效 
补偿 的 。 

Coden (2002) 包含 了 关于 语音 文档 检索 的 一 些 论文 。Singhal 和 Pereira (1999) 介绍 
了 一 种 能 够 显著 改进 性 能 的 语音 文档 扩展 技术 。TREC 语 音 文档 的 数据 和 主要 结果 可 以 参见 
Voorhees 和 Harman (2005) 的 描述 。 

关于 基于 内 容 的 图 像 检 索 ， 已 经 发 表 了 很 多 论文 。Flickner 等 (1995) 介绍 了 QBIC。 这 是 
最 早 的 商业 系统 之 一 ， 整 合 了 对 色彩 、 纹 理 和 形状 特征 的 检索 。Photobook 系 统 (Pentland et 
al., 1996) 也 对 其 他 基于 内 容 的 检索 项 目 产生 了 重要 影响 。Ravela 和 Manmatha (1997) 描述 
了 最 早 之 一 的 基于 纹理 的 检索 技术 ， 其 中 采用 了 一 种 信息 检索 方法 来 进行 评价 。SIFT (尺度 
不 变性 特征 转换 ) 算法 (Lowe, 2004) 是 目前 针对 搜索 来 表示 图 像 的 流行 方法 。Vasconcelos 
(2007) 给 出 了 最 近 基于 内 容 的 信息 检索 领域 的 概述 。 

在 基于 内 容 的 音乐 检索 领域 ， 绝 大 多 数 的 研究 都 发 表 在 音乐 信息 检索 国际 会 议 
(ISMIR) 9 E. Byrdf#iCrawford (2002) 对 这 个 领域 的 研究 话题 给 出 了 很 好 的 介绍 。 
Midomi9 是 基于 哼 唱 的 音乐 检索 的 例子 。 

关于 搜索 和 交互 的 信息 科学 方面 ，Belkin 撰 写 了 很 多 重要 论文 ， 例 如 Koenemann 和 Belkin 
(1996), Belkin (2008), IngwersenffJarvelin (2005) 扎 写 的 书包 括 了 颇具 代表 性 的 搜索 中 
交互 和 上 下 文 的 深入 讨论 。Marchionini (2006) 在 搜索 界面 的 重要 性 方面 讨论 了 类 似 的 话题 。 

© http:Wwww.midomi-com 。 
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你 能 在 互联 网 、 书 籍 、 电 影 或 者 电视 中 ， 找 到 其 他 关于 搜索 引擎 的 “未 来 版 本 ”人 么 ? 介 
绍 一 下 这 些 系统 和 它们 可 能 拥有 的 任何 一 个 独特 的 特点 。 

你 喜爱 的 网 络 搜索 引擎 使 用 的 是 词 袋 表示 么 ?你 如 何 能 够 确定 究竟 它 是 不 是 这 样 的 ? 
使 用 Galago 的 #feature 操 作 来 创建 一 个 排序 算法 ， 要 用 到 BM25 和 查询 似 然 特征 。 

说 明基 于 特征 的 线性 排序 函数 是 如 何 和 第 S 章 的 抽象 排序 横 型 相关 的 。 

在 SIGIR 2000 年 的 会 议 中 ， 有 多 少 篇 是 处 理 词 项 依赖 性 的 ? 列 出 它们 的 引用 。 

编写 一 个 程序 将 文本 查询 转换 为 Galago 中 的 序列 依 束 MRF 查询 , 就 像 文章 中 介绍 的 那样 。 
在 一 个 索引 上 运行 一 些 查询 ， 并 比较 使 用 和 不 使 用 词 项 依赖 结果 的 质量 。 哪 种 查询 是 使 
用 依赖 模型 提高 最 多 的 ? 哪 种 又 是 降低 最 多 的 ? 

想 出 当 你 搜索 XML 结构 化 文档 时 的 五 种 查询 。 这 些 查询 必须 包括 结构 和 内 容 特 征 。 采 
用 英语 和 NEXI 语 言 来 书写 查询 (如果 XML 结 构 不 明显 的 话 ， 解 释 一 下 )。 你 认为 查询 中 
的 结构 化 部 分 能 够 改进 性 能 么 ? 给 出 详细 的 例子 。 

找 出 一 个 数据 库 系 统 〈 可 以 是 商业 的 或 者 开源 的 ) 的 文本 搜索 功能 。 尽 量 详细 地 描述 ， 
包括 查询 语言 。 和 搜索 引擎 对 比 一 下 这 种 功能 。 

找 出 一 个 运行 在 互联 网 上 的 自动 问答 演示 系统 。 使 用 一 组 问题 测试 集 ， 区 分 一 下 对 于 这 
个 系统 ， 哪 些 类 型 的 问题 容易 解答 ， 哪 些 问题 不 行 。 使 用 MRR 或 者 其 他 评价 指标 来 报 
告 性 能 。 

使 用 一 个 网 络 搜索 引擎 中 的 基于 文字 的 图 像 检 索 ， 找 出 你 认为 可 以 基于 色彩 找到 的 图 
片 的 例子 。 使 用 诸如 Photoshop 的 工具 来 将 测试 图 片 生 成 基于 色调 的 色彩 直方 图 (或 者 
RGB 中 的 任意 一 种 颜色 都 行 )。 使 用 一 些 相似 度 度量 来 对 比 这 些 直方 图 (例如 坐标 点 上 
对 应 值 平方 差 的 和 )。 这 些 相似 度 在 多 大 程度 上 符合 你 的 视觉 感觉 ? 

查看 已 经 被 用 户 标注 的 图 像 或 者 视频 的 样 例 ， 将 这 些 标签 分 为 三 组 : 那些 你 认为 最 终 
可 以 被 图 像 处 理 和 物体 识别 自动 完成 ， 那 些 你 认为 不 可 能 被 图 像 处 理 完成 ， 或 者 是 垃 
圾 。 然 后 对 这 些 图 像 的 相关 查询 确定 ， 哪 些 标签 应 该 是 最 有 用 的 。 总 结 你 的 发 现 。 

对 于 个 人 数码 图 像 和 视频 ， 哪 些 特征 你 愿意 用 来 支持 索引 和 检索 ?这 些 特征 中 ， 哪 些 
可 以 从 目前 标准 的 软件 中 获得 ?这 些 特征 中 ， 哪 些 在 研究 论文 中 被 讨论 过 ? 

从 同一 首 歌 的 两 个 版 本 例如 不 同 的 艺术 家 ) 对 应 的 MP3 文 件 开始 ， 使 用 网 上 能 用 到 
的 工具 来 分 析 和 对 比 它们 。 你 应 读 能 够 找到 工具 来 从 音频 中 生成 MIDI 和 声 谱 图 。 你 能 
从 这 些 文件 中 找到 任何 来 自 于 曲调 的 相似 度 吗 ? 你 还 可 以 尝试 使 用 麦克 风 录 制 这 首 歌 ， 
然后 将 录音 创建 的 音频 文件 和 原始 文件 进行 对 比 。 
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